至此分类算法在前面都学完了,下面将进行回归算法的学习。
回归算法和分类算法都属于监督学习算法,不同的是分类算法中标签的是一些离散的值,代表不同的类别,而在回归算法中,标签是一些连续的值,回归算法需要训练得到样本特征到这些连续标签之间的映射。线性回归是一类重要的回归问题,在线性回归中,目标值与特征之间存在着线性相关的关系。
一、线性回归
基本形式:给定由 d 个属性描述的示例 ,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即:
一般形式为:
w 和 b 学得之后,模型就得以确定。
线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记。
1、当输入属性就一个时线性回归试图学得:
,使得
如何确定 w 和 b 那?关键是衡量 f 和 y 之间的差别。均方误差是回归任务中最常用的性能度量,因此可以使均方误差最小。基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是找到一条直线,使所有样本到直线的欧式距离和最小。即:
2、输入d个属性时试图学得:
二、牛顿法
除了梯度下降法,牛顿法也是机器学习中用的比较多的一种优化算法。牛顿法的基本思想是利用迭代点 处的一阶导数 (梯度)和二阶导数 ( Hessen 矩阵) 对目标函数进行二次函数近似,然后把二次模型的极小点作为新的迭代点,并不断重复这一过程,直至求得满足精度的近似极小值。牛顿法的速度相当快,而且能高度逼近最优值。牛顿法最突出的优点是收敛速度快,具有局部二阶收敛性,其分为基本牛顿法和全局牛顿法。
1.基本牛顿法
基本牛顿法是基于导数的算法,他每一步的迭代方向都是沿着当前点函数值下降的方向。对于一维的情形,对需要求解的优化函数 ,求函数的极值的问题可以转化为求导函数 。对 进行泰勒展开到二阶,得:
对上式求导并令其为0,则: