机器学习--过拟合

最新推荐文章于 2023-09-15 23:49:50 发布

mingyuewu

最新推荐文章于 2023-09-15 23:49:50 发布

阅读量260

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44817119/article/details/102926036

版权

机器学习——术语

参考链接

(https://me.csdn.net/daodanxiansheng)

https://me.csdn.net/xbmatrix)

http://kubicode.me/2015/08/16/Machine%20Learning/Common-Interview/?from= singlemessage#

http://blog.csdn.NET/heyongluoyao8/article/details/49429629

http://lib.csdn.Net/article/machinelearning/33798

http://www.cnblogs.com/zuochongyan/p/5407053.html

一、过拟合

1 现象

模型训练的时候误差很小，测试时误差很大

2 产生原因及解决方法

样本问题：

【1】样本数量过少

【2】抽样方法错误（正态分布、均匀分布）

【3】样本中噪声干扰过大

解决方法：

【1】对样本进行降维，归一化，添加验证数据

【2】抽样方法要符合业务场景

【3】清洗噪声数据

模型问题：

【1】模型复杂度高，参数太多

【2】决策树模型没剪枝

【3】权值迭代次数过多（overtraining) 拟合了训练数据中的噪声和训练样本中没有代表性的特征

解决方法：

【1】正则化：正则化是针对过拟合而提出的，认为在求解模型最优的是一般优化最小的经验风险，现在在该经验风险上加入模型复杂度这一项（正则化项是模型参数向量的范数），并使用一个rate比率来权衡模型复杂度与以往经验风险的权重，如果模型复杂度越高，结构化的经验风险会越大，现在的目标就变为了结构经验风险的最优化，可以防止模型训练过度复杂，有效的降低过拟合的风险。
奥卡姆剃刀原理，如无必要，勿增实体，即简单有效原理。能够很好的解释已知数据并且十分简单才是最好的模型。

利用先验知识，添加正则项。L1正则更加容易产生稀疏解、L2正则倾向于让参数w趋向于0.

【2】控制模型复杂度，优先选择简单的模型，或者用模型融合技术

【3】不要过度训练，最优化求解时，收敛之前停止迭代

【4】权值衰减
my thinking:应该和人学习一样，判断新事物会根据以往的经验和新事物客观体现出来的特征，模型越复杂，可能会越依赖于以往的经验，正则化是不是调整以往经验和现有事实之间的权值？】】】
L1,L2，正则化项是模型参数向量的范数】】】我现在还看不懂

二、正则化

<1>bias 偏差
衡量训练集和我们的最小误差的差距，训练集误差很大，即high bias
<2>variance 方差
训练集和验证集效果的差别
在这里插入图片描述

正则化方法

【1】限制网络模型的神经元数量
【2】限制模型参数（连接权重W，偏置项B）
【3】在目标函数添加一些额外的惩罚（对损失函数的某些参数做一些限制）
可分为三种

范数惩罚

【1】

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习--过拟合

机器学习——术语参考链接 (https://me.csdn.net/daodanxiansheng) https://me.csdn.net/xbmatrix) http://kubicode.me/2015/08/16/Machine%20Learning/Com...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。