局部线性回归(LWR):
原始版本的线性回归是:
1.使用参数θ进行拟合,让数据集中的值与拟合算出的值的差值平方(最小二乘法的思想)
2.输出θTX
相应的在LWR局部加权线性回归中:
1.使用参数θ进行拟合,让加权距离 w(i)(y(i) − θT x(i))^2最小;
2.输出 θTX。
上面式子中的w(i)是非负的权值,直观点说就是,如果对应某个 i 的权值w(i)特别大,那么在选择拟合参数θ的时候,就要尽量让这一点的(y(i) − θT x(i))2 最小。而如果权值w(i)特别小,那么这一点对应的(y(i) − θT x(i))2就基本在拟合过程中忽略掉了。
关于权值的选取可以使用下面这个标准公式:
其中X是要预测的特征,这样假设的道理是离X越近权重越大,越远影响越小。权值与高斯分布相似,但并没有任何关系,权值不是随机数。参数tow叫做带宽参数,他控制了权值降低的速度。
局部加权线性回归算法是非参数算法,无权重的线性回归算法是参数算法。
分类和逻辑回归
一般来说,回归不用在分类问题上,因为回归是连续性模型,而且受到噪声影响比较大。
逻辑回归本质上也是线性回归,只是在特征到结果的映射中加入了一层函数映射,即把特征线性求和,然后使用函数g(z)作为假设函数来预测。g(z)可以将连续值映射到0和1上。
逻辑回归的假设函数h如下:
而线性回归假设函数知识θTX.
逻辑回归用来分类0/1问题,也就是预测结果是属于0或者1的二值分类问题。
这里假设二值满足伯努利分布,也就是:
当然也可以假设它满足泊松分布、指数分布等。
与线性回归一样,仍然是求最大似然估计,然后求导,θ迭代公式为:
牛顿法来解最大似然估计
线性回归和上式求解最大似然估计的方法是求导迭代,牛顿下降法可以使结果更快速的收敛。
牛顿法:假设我们有一个从实数到实数的函数f:R->R,然后找一个θ,来满足f(θ)=0,其中θ是一个实数。牛顿法就是通过对θ做出如下更新:
当应用求解最大似然估计的最大值时,变成求解l’(θ)=0的问题。那么迭代公式变成:
当θ是向量是,牛顿法可以用以下式子表示:
牛顿法收敛速度虽然很快,但求 Hessian 矩阵的逆的时候比较耗费时间。
当初始点 X0 靠近极小值 X 时,牛顿法的收敛速度是最快的。但是当 X0 远离极小值时,牛顿法可能不收敛,甚至连下降都保证不了。原因是迭代点 Xk+1 不一定是目标函数 f 在牛顿方向上的极小点。
广义线性模型
在逻辑回归时使用g(z)函数是由理论支撑的,这个理论便是广义线性模型。
如果一个概率分布可以表示为:
那么这个概率分布是属于指数族分布。伯努利分布,高斯分布,泊松分布,贝塔分布,狄特里特分布都属于指数分布。
上面的式子中,η叫做此分布的自然参数, T(y) 叫做充分统计量,我们目前用的这些分布中通常T (y) = y;而 a(η) 是一个对数分割函数。e−a(η)这个量本质上扮演了归一化常数的角色,也就是确保p(y; η)的总和等于1。
伯努利分布的概率可以表示成:
其中:
得到:
这就解释了逻辑回归为什么要使用这个函数作为假设函数。
广义线性模型的要点是: