一:背景:当给出我们一些样本点,我们可以用一条直接对其进行拟合,如y= a0+a1x1+a2x2,公式中y是样本的标签,{x1,x2,x3}是特征,当我们给定特征的大小,让你预测标签,此时我们就需要事先知道参数{a1,a2}。而最小二乘法和最大似然估计就是根据一些给定样本(包括标签值)去对参数进行估计<参数估计的方法>。一般用于线性回归中进行参数估计通过求导求极值得到参数进行拟合,当然也可以用牛顿法或者梯度上升。而逻辑回归——分类问题中寻找最佳参数,首先也是通过极大似然估计得到cost function,然后一般用梯度上升或者牛顿法求解参数。。。
此外多说一点:线性回归中的损失函数<cost function>和逻辑回归中的损失函数略有不同,linear regression中要不是最小二乘中的J(θ)<估计值与观察值的平方和最小>或者为最大似然估计中使联合概率密度达到最大。
而logistic regression中损失函数在这篇blog中讲解过:http://blog.csdn.net/lu597203933/article/details/38468303
二:最小二乘法:
基本思想:
简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。
这里m