机器学习(三)

摘要

通过预测宝可梦的CP值的案例分析回归模型。采用训练数据和测试数据得出的预测准确性有时候相差较大,解决此类问题通常是增加模型的复杂度,如果模型过于复杂也会产生过拟合,为了过拟合问题,我们也给出了正则化方法解决问题。

Abstract

The regression model is analyzed through the case of predicting the CP value of Pokemon. Sometimes, the accuracy of prediction obtained by training data and test data is quite different. To solve such problems, the complexity of the model is usually increased, and overfitting will occur if the model is too complex. In order to solve the overfitting problem, we also proposed a regularization method.

预测宝可梦的CP值

input为宝可梦的各项参数,如种类(s),生命值HP),重量(W),高度(H),output为宝可梦进化后的战斗力(CP)。
在这里插入图片描述

1、model

在这里插入图片描述
采用Linear model y = b+wx,w为权重,b为偏差。x为宝可梦的各项参数。如血量,种类等等。

2、Train Data

在这里插入图片描述

3、定义Loss function

在这里插入图片描述
用孙士华安舒损失函数 Loss function L ,来定义w和b的好坏。
在这里插入图片描述

4、寻找最佳的参数模型

寻找最优的w和b,往往采用 Gradient Descent (梯度下降)的方法。
梯度下降法是用来计算函数最小值的。我们求出目标函数在参数 上的梯度,它是往函数减小的最大方向(梯度的反方向)移动一步,这一步的步长也和学习率也有关系

在这里插入图片描述

梯度下降计算步骤:

1、初始化参数的值,计算L对参数的偏导数。
2. 将参数代入偏导数计算出梯度。
3. 用学习率(η)乘以梯度,对参数进行更新
4. 重复2、3步骤学习率(η)
在梯度下降算法中,学习率的选择非常重要。如果学习率太大,会出现振荡,收敛的很慢。如果步长太小,那么收敛速度太慢,我们需要很多次迭代来到达局部最优解。
在这里插入图片描述
在这里插入图片描述
结果显示,数据集为 testing data 时的误差比数据集为 training data 的误差要大。如果想要进一步优化,那么我们就需要重新设计 model。图中显示在cp值特别小的地方和cp值特别大的地方,预测是不准确的。因此我们需要有一个更为复杂的model

5、设计一个复杂的model

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
结果分析:在训练集上表现更为优秀的模型,为什么在测试集反而变差 。原因是模型在训练集上过拟合。越复杂的模型,训练集上误差越来越低,但不一定在测试集上有更好的表现,因此要选择合适的模型。
在这里插入图片描述
通过正则化对目标函数添加一个参数范数惩罚,限制模型的学习能力,可以使得曲线变得光滑平整,调节模型的拟合程度与模型的复杂程度。

总结

通过上述宝可梦案例的分析,我对梯度下降、过拟合、正则化有了深刻印象。同时我也深刻认识到,我对概率论数理统计的理论知识方面仍然存在很大的欠缺,下周将继续研究识别宝可梦种类的案例,进一步掌握概率生成模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值