Python机器学习术语and线性回归算法

机器学习

        机器学习体现为“算法“,精髓在于预测,判读算法或模型优劣的标准在于预测能力的高低。在解决特点问题方面有更好预测能力,不存在一种算法应对所有问题。需要相关经验的先验指导

示例

样本,一行数据

响应变量

  目标变量,y(一个)。

特征

  影响响应变量的变量,又称预测变量,属性。X表示(多个)。

属性值

  属性的取值

属性空间

  多个属性组成的空间,组成空间的属性个数称为维数。如三维是xyz,还有更多维度

特征向量

    空间中的每一个点都称为特征向量

数据集

训练数据集

    构建模型

测试数据集

    检验机器学习效果,检验外推泛化能力

机器学习分类

    监督学习有y,无监督学习无y。

   有监督:y值是分类的就是分类监督,y是连续的就是回归监督

        效果:y拟合数量和实际数量的差异;拟合值和实际值的差异

   无监督:降维或聚类,挖掘特征变量自身特征

       效果:组内相似度高,组外低。如用户特征快速聚类,推荐

误差

测试值与实际值之间差值为误差

经验误差/训练误差:基于训练样本的误差。经验误差不是越小越好,学习能力过强,过小可能是对训练集做了个性化,这些个性化特征无法泛化到新样本,增加了模型复杂度,无法预测。称为过拟合。过大则模型能力差,欠拟合。实现预测能力的基础上,需要的数据维度越少越好

泛化误差:基于新样本的误差,反映了模型的泛化能力

   泛化误差越小,模型泛化能力越好。应该关注泛化误差而不是经验误差

偏差

   偏差是期望预测与真实值的偏离程度,反映算法的拟合能力。高偏差偏离大,算法拟合能力差

导致原因:

   模型选错了,非线性的选成了线性的

   模型复杂度不够:真实为二次线性关系,模型为一次

经验:一般线性算法如线性回归,线性判别和逻辑回归会受限于线性,从而无法从数据集中学习足够多知识,针对复杂问题预测能力低,偏差大

大灵活性的非线性算法如决策树,knn,svm偏差低

方差

大量抽样过程中,同样大小训练样本的变动导致学习性能的变化。数据扰动的影响,即

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值