机器学习——术语
参考链接
(https://me.csdn.net/daodanxiansheng)
https://me.csdn.net/xbmatrix)
http://kubicode.me/2015/08/16/Machine%20Learning/Common-Interview/?from= singlemessage#
http://blog.csdn.NET/heyongluoyao8/article/details/49429629
http://lib.csdn.Net/article/machinelearning/33798
http://www.cnblogs.com/zuochongyan/p/5407053.html
一、过拟合
1 现象
模型 训练的时候误差很小,测试时误差很大
2 产生原因及解决方法
样本问题:
【1】样本数量过少
【2】抽样方法错误(正态分布、均匀分布)
【3】样本中噪声干扰过大
解决方法:
【1】 对样本进行降维,归一化,添加验证数据
【2】 抽样方法要符合业务场景
【3】 清洗噪声数据
模型问题:
【1】模型复杂度高,参数太多
【2】决策树模型没剪枝
【3】权值迭代次数过多(overtraining) 拟合了训练数据中的噪声和训练样本中没有代表性的特征
解决方法:
【1】 正则化: 正则化是针对过拟合而提出的,认为在求解模型最优的是一般优化最小的经验风险,现在在该经验风险上加入模型复杂度这一项(正则化项是模型参数向量的范数),并使用一个rate比率来权衡模型复杂度与以往经验风险的权重,如果模型复杂度越高,结构化的经验风险会越大,现在的目标就变为了结构经验风险的最优化,可以防止模型训练过度复杂,有效的降低过拟合的风险。
奥卡姆剃刀原理,如无必要,勿增实体,即简单有效原理。能够很好的解释已知数据并且十分简单才是最好的模型。
利用先验知识,添加正则项。L1正则更加容易产生稀疏解、L2正则倾向于让参数w趋向于0.
【2】 控制模型复杂度,优先选择简单的模型,或者用模型融合技术
【3】 不要过度训练,最优化求解时,收敛之前停止迭代
【4】 权值衰减
my thinking:应该和人学习一样,判断新事物会根据以往的经验和新事物客观体现出来的特征,模型越复杂,可能会越依赖于以往的经验,正则化是不是调整以往经验和现有事实之间的权值?】】】
L1,L2,正则化项是模型参数向量的范数 】】】我现在还看不懂
二、 正则化
<1>bias 偏差
衡量训练集和我们的最小误差的差距,训练集误差很大,即high bias
<2>variance 方差
训练集和验证集效果的差别
正则化方法
【1】限制网络模型的神经元数量
【2】限制模型参数(连接权重W,偏置项B)
【3】在目标函数添加一些额外的惩罚(对损失函数的某些参数做一些限制)
可分为三种
范数惩罚
【1】