机器学习梳理

机器学习梳理

机器学习概念

1.监督学习&无监督学习

监督学习:

利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。

a.分类器:分类是数据挖掘的一种非常重要的方法,分类的概念是在已有数据的基础上学会一个分类函数或构造一个分类模型(即我们通常说的分类器(Classifier))。该函数或模型能够把数库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。
分类器的构造和实施有以下几个步骤:

  • 选定样本(包含正样本和负样本),将所有样本分成训练样本和测试样本两部分。
  • 在训练样本上执行分类器算法,生成分类模型
  • 在测试样本上执行分类模型,生成预测结果
  • 根据预测结果,计算必要的评估指标,评估分类模型的性能。

b.参数:也叫参变量,是一个变量。我们在研究当前问题的时候,关心某几个变量的变化以及它们之间的相互关系,其中有一个或一些叫自变量,另一个或另一些叫因变量。如果我们引入一个或一些另外的变量来描述自变量与因变量的变化,引入的变量本来并不是当前问题必须研究的变量,我们把这样的变量叫做参变量或参数。英文名:Parameter。Eg:圆的参数方程 x=a+r cosθ,y=b+r sinθ ; (a,b)为圆心坐标,r为圆半径, θ为参数;

无监督学习:

无监督学习是一种机器学习方法,用于发现数据中的模式。输入无监督算法的数据都没有标签,也就是只为算法提供了输入变量(X)而没有对应的输出变量。在无监督学习中,算法需要自行寻找数据中的有趣结构。
无监督学习问题可以有以下三种类型:

  • 关联:发现目录中项目共现的概率。其广泛应用于“购物篮分析”。例如,如果一个顾客购买了面包,他会有80%的概率也购买鸡蛋。
  • 聚类:根据数据的“相似性”将样本数据分为多类的过程,这样,同一聚类中的物体与来自另一聚类的物体相比,相互之间会更加类似。
  • 降维:正如其含义,降维指减少一个数据集的变量数量,同时保证还能传达重要信息。降维可以通过特征抽取方法和特征选择方法完成。特征选择方法会选择初始变量的子集。特征抽取方法执行从高纬度空间到低纬度空间的数据转换。例如,主成分分析法(PCA)就是一种特征抽取方法。

2.训练集 验证集 测试集

在训练有监督的机器学习模型的时候,会将数据划分为训练集、验证集和测试集,划分比例一般为6:2:2。对三个集合的划分,是为了能够选出准确率最高的、泛化能力最佳的模型。

训练集

训练集:估计模型
学习样本数据集,通过匹配一些参数来建立一个分类器,建立一种分类的方式,主要是用来拟合模型,通过设置分类器的参数,训练分类模型。后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个分类器。

验证集

验证集:确定网络结构或者控制模型复杂程度的参数
当通过训练集训练出多个模型后,为了能找出效果最佳的模型,使用各个模型对验证集数据进行预测,并记录模型准确率。选出效果最佳的模型所对应的参数,即用来调整模型参数,验证集还用来确定网络结构或者控制模型复杂程度的参数。

测试集

测试集:检验最终选择最优的模型的性能如何
通过训练集和验证集得出最优模型后,使用测试集进行模型预测。用来衡量该最优模型的性能和分类能力。即可以把测试集当做从来不存在的数据集,当已经确定模型参数后,使用测试集进行模型性能评价。

3.泛化能力、偏差(Bias)、方差(Variance)

泛化能力(generalization)

概括地说,泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力,即模型针对以前未见过的新数据做出正确预测的能力。

偏差(Bias)

偏差(bias)反映了模型在样本上的期望输出与真实标记之间的差距,即模型本身的精准度,反映的是模型本身的拟合能力。

方差(Variance)

方差(variance)反映了模型在不同训练数据集下学得的函数的输出与期望输出之间的误差,即模型的稳定性,反应的是模型的波动情况。
下面用打靶的例子直观展示了偏差和方差。
在这里插入图片描述

4.过拟合(Underfit)、欠拟合(Overfitting)

过拟合(Underfit)

过拟合(over-fitting)其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳;通俗一点地来说过拟合就是模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力太差。

欠拟合(Overfitting)

欠拟合(Overfitting)就是模型没有很好地捕捉到数据特征,不能够很好地拟合数据。
下图是欠拟合和过拟合模型的示例:
在这里插入图片描述

5.如何防止过拟合和欠拟合

欠拟合(刻画不够)
  • 增加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决;
  • 添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强
  • 重新选择更加复杂的模型,减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数
过拟合(刻画太细,泛化太差)
  • 增加训练样本数量,样本多了,噪声比重就减少了
  • 采用dropout方法,减少特征维数,高纬空间密度小,即在训练时候以一定的概率p来跳过一定的神经元,在训练的时候让神经元以一定的概率不工作。具体看下图:
    在这里插入图片描述
  • 加入正则化项,使得模型更加平滑
  • 重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新清洗数据

思考:如何判断过拟合和欠拟和

线性回归原理

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布.
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.

1.线性回归损失函数

线性回归,采用的是平方损失函数,损失函数越小,模型就越好,而且损失函数尽量是一个凸函数,便于收敛计算。
平方损失函数:L(Y,f(X))=(Y?f(X))2
使用平方损失函数的原因,简单的说,是因为使用平方形式的时候,使用的是“最小二乘法”的思想,这里的“二乘”指的是用平方来度量观测点与估计点的距离(远近),“最小”指的是参数值要保证各个观测点与估计点的距离的平方和达到最小。

2.代价函数

代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。概况来讲,任何能够衡量模型预测出来的值h(θ)与真实值y之间的差异的函数都可以叫做代价函数C(θ),如果有多个样本,则可以将所有代价函数的取值求均值,记做J(θ)。因此很容易就可以得出以下关于代价函数的性质:

  • 对于每种算法来说,代价函数不是唯一的;
  • 代价函数是参数θ的函数
  • 总的代价函数J(θ)可以用来评价模型的好坏,代价函数越小说明模型和参数越符合训练样本(x, y);
  • J(θ)是一个标量;

3.目标函数

一个工程设计问题 ,常有许多可行的设计方案 ,最优化设计的任务是要找出其中最优的一个方案。评价最优方案的标准应是在设计中能最好地反映该项设计所要追求的某些特定目标。通常 ,这些目标可以表示成设计变量的数学函数 ,这种函数称为目标函数;

目标函数的两个重要概念:

  • 等值线(等值面)
    不同的设计点X代表不同的设计方案,不同的设计方案可以达到同样的目标值。在数学上,具有相同目标函数值的点并非一个,而是很多,例如:二维设计中,目标函数是三维空间中的曲面,具有相同目标函数值的点在二维空间上描绘出一簇簇曲线,如右图所示,这种n维设计空间中具有相同目标函数值的设计点在n维空间中构成的曲线(面)称为目标函数的等值线(面)。
    在这里插入图片描述
  • 梯度
    梯度是目标函数f(X)对各个设计变量的偏导数所组成的向量,并以符号
    “▽f(X)"表示,即
    在这里插入图片描述
    从几何意义上讲,梯度向量在目标函数面的(n+1)维空间中垂直于目标函数面在设计变量的n维空间中垂直于目标函数的等值面。以二维为例,如下图所示,当f(X) =ax1+bx2表示目标函数面是三维空间中的一个平面时,其等值线是一簇簇平行线C1,C2……,梯度▽f(X(k))既垂直于目标函数面,又垂直于等值线。
    在这里插入图片描述
    在最优化设计中有时可以建立多个目标函数,这种问题称为多目标函数间题。一般说来 ,目标函数越多,对设计的评价就越周全 ,但计算也越复杂。

优化方法

1.最小二乘法

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

2.牛顿法

3.拟牛顿法

备注:优化方法这一块还不是太懂,需要再进一步了解

线性回归评估指标

1.均方误差(MSE)

均方误差(mean-square error, MSE)是反映估计量与被估计量之间差异程度的一种度量。设t是根据子样确定的总体参数θ的一个估计量,(θ-t)2的数学期望,称为估计量t的均方误差.
公式:
在这里插入图片描述

均方误差是评价点估计的最一般的标准,自然,我们希望估计的均方误差越小越好

2.均方根误差(RMSE)

RMSE(Root Mean Squard Error)均方根误差就是MSE开根号后的结果;均方根误差是观测值与真值偏差的平方与观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替.标准误差 对一组测量中的特大或特小误差反映非常敏感,所以,标准误差能够很好地反映出测量的精密度。这正是标准误差在工程测量中广泛被采用的原因。因此,标准差是用来衡量一组数自身的离散程度,而均方根误差是用来衡量观测值同真值之间的偏差,它们的研究对象和研究目的不同,但是计算过程类似.
在这里插入图片描述

3.MAE(平均绝对误差)

平均绝对误差(Mean Absolute Deviation),又叫平均绝对离差,是所有单个观测值与算术平均值的偏差的绝对值的平均。平均绝对误差可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。
在这里插入图片描述

4.R Squared(R方)

R平方(R-squared)是反映业绩基准的变动对基金表现的影响,影响程度以 0~100 计。如果R平方值等于100,表示基金回报的变动完全由业绩基准的变动所致;若R平方值等于35,即35%的基金回报可归因于业绩基准的变动。简言之,R 平方值越低,由业绩基准变动导致的基金业绩的变动便越少。此外,R平方也可用来确定β系数或α系数的准确性。一般而言,基金的R平方值越高,其两个系数的准确性便越高。
在这里插入图片描述

Sklearn.LinearRegression函数参数详解

任务:还需深入实践

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值