Linear Regression
最近在研究回归方面的模型,线性回归是第一个学习的模型,先把斯坦福吴大牛的视频学习了一遍,记录如下:
线性回归是有监督学习模型中的一个,对于描述有监督的学习用下面这个图来表述是最合适不过了。
通过这个图我们可以很清楚的知道,有监督的学习其实就是要解决的问题是:怎么去定义Hypothesis以及怎么求解这个模型。
线性回归中的Hypothesis的定义如下:
其中 是N维特征,是N维特征对应的系数。现在已经得到了线性回归的模型定义,那么下一步就是需要求解这个模型里未知的系数。怎么求解呢?一个直观的想法就是,希望模型能表示现在的训练集数据,将他们内在的关系表达出来,那么可以定义一个函数来表达模型和训练数据的差异,如果这个差异值足够小,那么这个模型表达这个训练数据内部的关系是足够合适的。现在可以定一个损失函数如下:
为什么损失函数需要这么定义?
当然这么定义是有一定原因的,假设根据特征的预测结果H(x)和真实结果Y存在误差,那么可以表示如下
一般来将,误差满足平均值为0的正太分布,那么x和y的条件概率分布也是
这样就估计了一条样本的结果概率,而我们是期望模型能把所有的样本都能预测到最准,所以需要把这些概率值乘在一起得到最大值,这个概率的乘积就是最大似然估计。这就解释了损失函数这么定义的原因。
损失函数定义好了,那么下一步就是要求解这个损失函数达到最小时所有的参数取值情况,学过高中数学都知道求这种极致问题一般都是通过求导数令导数为0来解决,这个问题同样不例外,不过这里是多变量的求导也就变成了求偏导,结果如下:
之前公式里设置的1/2 的原因在这里可以看到它的简化作用。这求导后的式子可以用一个简单的符号来表示. 下一步就需要开始迭代求解,迭代过程中向梯度的反方向移动,当梯度0时,那么这个时候所有的参数也就确定了。迭代公式如下:
Online algorithm
其中 表示步长,用来控制收敛速度。
Batch算法中的m为训练集的样本数。
那么为啥迭代的过程中为啥是梯度的反方向呢?用如下一个图例来解释比较合适。
至此,线性回归的原理部分介绍的差不多了,那么可以用一个实例加以说明。
这个例子背景说明可以参考之前的博文:
http://hi.baidu.com/kuizeng/item/fd19e5c7006ad966f6c95df2
代码是用python实现的online 算法,需要特别说明的是,网上也有不少了写过关于online和batch的算法,但是有不少实现将batch和online的算法搞混了。
#!/usr/bin/python
# -*- coding: utf-8 -*-
__author__ = "zengkui"
__version__ = "$Revision: 1.0 $"
__date__ = "$Date: 2012/08/04 21:20:19 $"
__copyright__ = "Copyright (c) 2012 zengkui"
__license__ = "Python"
import os
import sys
import math
class LinearRegression :
def __init__ ( self ) :
self.__LEARNING_RATE = 0.1
self.__MAX_FEATURE_CNT = 11
#the init weight of digit from 0 to 9 and also the Intercept
self.__theta = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
#training sample
self.samples = [[1,1,0,1,0,0,1,0,0,1,1,4], \
[1,0,1,0,0,1,0,0,3,0,0,0], \
[1,0,0,2,2,0,1,0,0,0,0,0], \
[1,2,0,1,0,1,1,0,0,0,0,2], \
[1,0,1,0,0,0,0,0,3,1,0,2], \
[1,0,1,0,0,1,1,1,1,0,0,1], \
[1,0,1,0,0,1,0,1,0,1,1,4], \
[1,2,0,1,1,0,0,0,0,0,1,3], \
[1,0,1,0,0,2,0,0,0,2,0,4], \
[1,0,0,1,0,1,1,0,0,1,1,3], \
[1,0,1,0,0,0,2,0,0,1,1,3], \
[1,1,1,1,1,0,0,1,0,0,0,2], \
[1,0,0,0,0,0,0,2,1,1,1,5]]
#test cases the last colum is answer for check
self.test_cases = \
[[1,1,0,0,1,1,1,0,0,1,0,3], \
[1,1,0,1,0,1,0,1,0,0,1,3], \
[1,0,1,1,1,0,0,1,0,1,0,3], \
[1,0,1,0,0,0,1,1,0,2,0,5], \
[1,0,1,0,1,1,1,0,0,1,0,2], \
[1,1,1,0,0,0,0,1,0,1,1,5], \
[1,0,0,1,0,0,1,0,0,0,3,3], \
[1,0,1,0,0,1,1,1,1,0,0,1], \
[1,0,0,0,2,0,0,0,1,0,2,2], \
[1,0,1,0,0,3,1,0,0,0,0,0], \
[1,0,1,1,2,0,0,0,0,1,0,2]]
def __hypothesis ( self, x ) :
h = 0
for idx in range ( 0, self.__MAX_FEATURE_CNT) :
h += x[idx] * self.__theta[idx]
return h
def __update_theta (self, x, delta ) :
for idx in range (0, self.__MAX_FEATURE_CNT) :
self.__theta[idx] -= x[idx] * delta
def __train (self ) :
for x in self.samples :
h = self.__hypothesis ( x[0:-1] )
y = x[self.__MAX_FEATURE_CNT]
delta = (h - y) * self.__LEARNING_RATE
self.__update_theta ( x, delta )
def __get_loss (self) :
loss_sum = 0
for x in self.samples :
h = self.__hypothesis ( x[0:-1] )
y = x[self.__MAX_FEATURE_CNT]
loss_sum += (h - y) * ( h - y ) / 2
return loss_sum
def online_training (self) :
for itr in range (0, 100) :
self.__train()
loss_sum = self.__get_loss ()
for i in range ( 0, self.__MAX_FEATURE_CNT ) :
print "theta[%d] = %lf" % (i, self.__theta[i])
print "The %dth iterator and loss is %lf" % ( itr, loss_sum)
if loss_sum < 0.00001 :
break
def test (self) :
for t in self.test_cases :
h = self.__hypothesis ( t[0:-1] )
print "H = %lf, ANS = %d" % ( h, t[self.__MAX_FEATURE_CNT])
if __name__ == "__main__" :
lr = LinearRegression();
lr.online_training()
lr.test()