线性回归学习笔记

                                                      Linear Regression

 最近在研究回归方面的模型,线性回归是第一个学习的模型,先把斯坦福吴大牛的视频学习了一遍,记录如下:


线性回归是有监督学习模型中的一个,对于描述有监督的学习用下面这个图来表述是最合适不过了。

 

线性回归学习笔记 - zengkui111 - zengkui111的博客


                                                                                                                                                             

通过这个图我们可以很清楚的知道,有监督的学习其实就是要解决的问题是:怎么去定义Hypothesis以及怎么求解这个模型。

线性回归中的Hypothesis的定义如下:

           

线性回归学习笔记 - zengkui111 - zengkui111的博客

   其中 线性回归学习笔记 - zengkui111 - zengkui111的博客是N维特征,线性回归学习笔记 - zengkui111 - zengkui111的博客是N维特征对应的系数。现在已经得到了线性回归的模型定义,那么下一步就是需要求解这个模型里未知的系数。怎么求解呢?一个直观的想法就是,希望模型能表示现在的训练集数据,将他们内在的关系表达出来,那么可以定义一个函数来表达模型和训练数据的差异,如果这个差异值足够小,那么这个模型表达这个训练数据内部的关系是足够合适的。现在可以定一个损失函数如下:

                 

线性回归学习笔记 - zengkui111 - zengkui111的博客

为什么损失函数需要这么定义?

当然这么定义是有一定原因的,假设根据特征的预测结果H(x)和真实结果Y存在误差,那么可以表示如下
              

线性回归学习笔记 - zengkui111 - zengkui111的博客

一般来将,误差满足平均值为0的正太分布,那么x和y的条件概率分布也是

     

线性回归学习笔记 - zengkui111 - zengkui111的博客

这样就估计了一条样本的结果概率,而我们是期望模型能把所有的样本都能预测到最准,所以需要把这些概率值乘在一起得到最大值,这个概率的乘积就是最大似然估计。这就解释了损失函数这么定义的原因。

     损失函数定义好了,那么下一步就是要求解这个损失函数达到最小时所有的参数取值情况,学过高中数学都知道求这种极致问题一般都是通过求导数令导数为0来解决,这个问题同样不例外,不过这里是多变量的求导也就变成了求偏导,结果如下:

                 

线性回归学习笔记 - zengkui111 - zengkui111的博客

之前公式里设置的1/2 的原因在这里可以看到它的简化作用。这求导后的式子可以用一个简单的符号来表示. 下一步就需要开始迭代求解,迭代过程中向梯度的反方向移动,当梯度0时,那么这个时候所有的参数也就确定了。迭代公式如下:

            Online algorithm线性回归学习笔记 - zengkui111 - zengkui111的博客

            

线性回归学习笔记 - zengkui111 - zengkui111的博客

 

其中线性回归学习笔记 - zengkui111 - zengkui111的博客 表示步长,用来控制收敛速度。

Batch算法中的m为训练集的样本数。

 那么为啥迭代的过程中为啥是梯度的反方向呢?用如下一个图例来解释比较合适。

线性回归学习笔记 - zengkui111 - zengkui111的博客

 

线性回归学习笔记 - zengkui111 - zengkui111的博客


至此,线性回归的原理部分介绍的差不多了,那么可以用一个实例加以说明。

这个例子背景说明可以参考之前的博文:

http://hi.baidu.com/kuizeng/item/fd19e5c7006ad966f6c95df2 

代码是用python实现的online 算法,需要特别说明的是,网上也有不少了写过关于online和batch的算法,但是有不少实现将batch和online的算法搞混了。


#!/usr/bin/python 

# -*- coding: utf-8 -*- 

__author__ = "zengkui"

__version__ = "$Revision: 1.0 $" 

__date__ = "$Date: 2012/08/04 21:20:19 $"

__copyright__ = "Copyright (c) 2012 zengkui"

__license__ = "Python"



import os

import sys

import math


class LinearRegression :

    def __init__ ( self ) :

        self.__LEARNING_RATE = 0.1

        self.__MAX_FEATURE_CNT = 11

        #the init weight of digit from  0 to 9  and also the Intercept

        self.__theta  = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] 

        #training sample 

        self.samples = [[1,1,0,1,0,0,1,0,0,1,1,4], \

                        [1,0,1,0,0,1,0,0,3,0,0,0], \

                        [1,0,0,2,2,0,1,0,0,0,0,0], \

                        [1,2,0,1,0,1,1,0,0,0,0,2], \

                        [1,0,1,0,0,0,0,0,3,1,0,2], \

                        [1,0,1,0,0,1,1,1,1,0,0,1], \

                        [1,0,1,0,0,1,0,1,0,1,1,4], \

                        [1,2,0,1,1,0,0,0,0,0,1,3], \

                        [1,0,1,0,0,2,0,0,0,2,0,4], \

                        [1,0,0,1,0,1,1,0,0,1,1,3], \

                        [1,0,1,0,0,0,2,0,0,1,1,3], \

                        [1,1,1,1,1,0,0,1,0,0,0,2], \

                        [1,0,0,0,0,0,0,2,1,1,1,5]]

        #test cases the last colum is answer for check

        self.test_cases = \

            [[1,1,0,0,1,1,1,0,0,1,0,3], \

            [1,1,0,1,0,1,0,1,0,0,1,3], \

            [1,0,1,1,1,0,0,1,0,1,0,3], \

            [1,0,1,0,0,0,1,1,0,2,0,5], \

            [1,0,1,0,1,1,1,0,0,1,0,2], \

            [1,1,1,0,0,0,0,1,0,1,1,5], \

            [1,0,0,1,0,0,1,0,0,0,3,3], \

            [1,0,1,0,0,1,1,1,1,0,0,1], \

            [1,0,0,0,2,0,0,0,1,0,2,2], \

            [1,0,1,0,0,3,1,0,0,0,0,0], \

            [1,0,1,1,2,0,0,0,0,1,0,2]]


    def __hypothesis ( self, x ) :

        h = 0

        for idx in range ( 0, self.__MAX_FEATURE_CNT) :

            h += x[idx] * self.__theta[idx]

        return h 


    def __update_theta (self, x, delta ) :

        for idx in range (0, self.__MAX_FEATURE_CNT) :

            self.__theta[idx] -= x[idx] * delta


    def __train (self ) :

        for x in self.samples :

            h = self.__hypothesis ( x[0:-1] )

            y = x[self.__MAX_FEATURE_CNT]

            delta = (h - y) * self.__LEARNING_RATE

            self.__update_theta ( x, delta )


    def __get_loss (self) :

        loss_sum = 0 

        for x in self.samples : 

            h = self.__hypothesis ( x[0:-1] ) 

            y = x[self.__MAX_FEATURE_CNT]

            loss_sum += (h - y) * ( h - y ) / 2 

        return loss_sum

    

    def online_training (self) :

        for itr in range (0,  100) :

            self.__train()

            loss_sum = self.__get_loss ()

            for i in range ( 0, self.__MAX_FEATURE_CNT ) :

                print "theta[%d] = %lf" % (i, self.__theta[i])

            print "The %dth iterator and loss is %lf" % ( itr, loss_sum)

            if loss_sum < 0.00001 :

                break


    def test (self) :

        for t in self.test_cases :

            h = self.__hypothesis ( t[0:-1] )

            print "H = %lf, ANS = %d" % ( h, t[self.__MAX_FEATURE_CNT])


if __name__ == "__main__" :


    lr = LinearRegression();

    lr.online_training()

    lr.test()




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值