欠拟合,过拟合,正则化,归一化问题小结。

 概念:

欠拟合:拟合的函数和训练集误差较大,我们称这种情况为欠拟合

拟合:拟合的函数和训练集误差较小,我们称这种情况为合适拟合

过拟合:拟合的函数和训练集误差完美匹配,我们称这种情况为合适拟合

欠拟合原因:

欠拟合问题,根本的原因是特征维度过少,导致拟合的函数无法满足训练,误差大。

 解决方法:

1.添加其他特征项,有时候我们的模型出现欠拟合的时候是因为特征不够导致的,可以添加其他的

特征项来很好的解决。

2.添加多项式特征,这个在机器学习算法里面用的很普通,例如线性模型通过添加二次或者三次项使

模型泛化能力更强。

3.减少正则化参数,正则化是防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。

过拟合:过拟合问题,根本的原因是特征维度过多,导致拟合的函数完美的经过训练集,但是对新数据的预测结果

则较差。

解决方法:

1.重新清洗数据:导致过拟合的一个原因也可能是数据不纯导致的,如果出现过拟合就需要清洗数据

2.增大数据的训练量,还有一个原因是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小。

3.采用正则化方法。正则化方法包括L0正则,L1正则和L2正则,而正则一般是在目标函数之后加上对应的范数。

4.采用dropout方法。这个方法在神经网络里面很常用。通俗点说就是dropout方法在训练的时候让神经元以一定的概率不工作。

正则化(标准化),归一化(正规化):对数据进行预处理的两种方式,目的是让数据便于计算和获得更加泛化的结果。

常用正则化:

L1范式-所有参数W绝对值之和

L2范式-所有参数W的平方和

总结:L1范式会趋向于产生较小的特征,在特征选择时很有用,L2会选择更多特征,但对应权值接近于0.

数据的标准化和归一化:

数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标中经常会用到,

去除数据的单位限制,将其转化为无量纲的数值,便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是数据归一化处理,既将数据统一映射到[0,1]区间上。

目前数据标准化方法有多种,归结起来可以分为直线型方法,折线型方法,曲线型方法。

归一化的目标:

1.把数字变为(0,1)之间的小数

主要为了数据处理方便提出来的,把数据映射到0-1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。

2。把有量纲表达式变成无量纲表达式

归一化是一种简化计算的方式,及将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。

归一化后的两个好处

1.提升模型收敛速度

2.提升模型的精度

几种梯度下降

BGD:批梯度下降,每次用所有样本计算梯度

MBGD,小批梯度下降,每次选一部分数据进行梯度计算

SGD:随机梯度下降,每次只用一个样本计算梯度

常用梯度变种:Momentum,Nesterov,Adagrad,Adadelta,Adam

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值