机器学习
机器学习体现为“算法“,精髓在于预测,判读算法或模型优劣的标准在于预测能力的高低。在解决特点问题方面有更好预测能力,不存在一种算法应对所有问题。需要相关经验的先验指导
示例
样本,一行数据
响应变量
目标变量,y(一个)。
特征
影响响应变量的变量,又称预测变量,属性。X表示(多个)。
属性值
属性的取值
属性空间
多个属性组成的空间,组成空间的属性个数称为维数。如三维是xyz,还有更多维度
特征向量
空间中的每一个点都称为特征向量
数据集
训练数据集
构建模型
测试数据集
检验机器学习效果,检验外推泛化能力
机器学习分类
监督学习有y,无监督学习无y。
有监督:y值是分类的就是分类监督,y是连续的就是回归监督
效果:y拟合数量和实际数量的差异;拟合值和实际值的差异
无监督:降维或聚类,挖掘特征变量自身特征
效果:组内相似度高,组外低。如用户特征快速聚类,推荐
误差
测试值与实际值之间差值为误差
经验误差/训练误差:基于训练样本的误差。经验误差不是越小越好,学习能力过强,过小可能是对训练集做了个性化,这些个性化特征无法泛化到新样本,增加了模型复杂度,无法预测。称为过拟合。过大则模型能力差,欠拟合。实现预测能力的基础上,需要的数据维度越少越好
泛化误差:基于新样本的误差,反映了模型的泛化能力
泛化误差越小,模型泛化能力越好。应该关注泛化误差而不是经验误差
偏差
偏差是期望预测与真实值的偏离程度,反映算法的拟合能力。高偏差偏离大,算法拟合能力差
导致原因:
模型选错了,非线性的选成了线性的
模型复杂度不够:真实为二次线性关系,模型为一次
经验:一般线性算法如线性回归,线性判别和逻辑回归会受限于线性,从而无法从数据集中学习足够多知识,针对复杂问题预测能力低,偏差大。
大灵活性的非线性算法如决策树,knn,svm偏差低
方差
大量抽样过程中,同样大小训练样本的变动导致学习性能的变化。数据扰动的影响,即

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



