线性回归学习笔记

最新推荐文章于 2021-07-06 01:47:58 发布

北斗之首

最新推荐文章于 2021-07-06 01:47:58 发布

阅读量428

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dreamzk/article/details/10068167

版权

Linear Regression

最近在研究回归方面的模型，线性回归是第一个学习的模型，先把斯坦福吴大牛的视频学习了一遍，记录如下：

线性回归是有监督学习模型中的一个，对于描述有监督的学习用下面这个图来表述是最合适不过了。

线性回归学习笔记 - zengkui111 - zengkui111的博客

通过这个图我们可以很清楚的知道，有监督的学习其实就是要解决的问题是：怎么去定义Hypothesis以及怎么求解这个模型。

线性回归中的Hypothesis的定义如下:

其中是N维特征，是N维特征对应的系数。现在已经得到了线性回归的模型定义，那么下一步就是需要求解这个模型里未知的系数。怎么求解呢？一个直观的想法就是，希望模型能表示现在的训练集数据，将他们内在的关系表达出来，那么可以定义一个函数来表达模型和训练数据的差异，如果这个差异值足够小，那么这个模型表达这个训练数据内部的关系是足够合适的。现在可以定一个损失函数如下：

线性回归学习笔记 - zengkui111 - zengkui111的博客

为什么损失函数需要这么定义？

当然这么定义是有一定原因的，假设根据特征的预测结果H(x)和真实结果Y存在误差，那么可以表示如下

一般来将，误差满足平均值为0的正太分布，那么x和y的条件概率分布也是

这样就估计了一条样本的结果概率，而我们是期望模型能把所有的样本都能预测到最准，所以需要把这些概率值乘在一起得到最大值，这个概率的乘积就是最大似然估计。这就解释了损失函数这么定义的原因。

损失函数定义好了，那么下一步就是要求解这个损失函数达到最小时所有的参数取值情况，学过高中数学都知道求这种极致问题一般都是通过求导数令导数为0来解决，这个问题同样不例外，不过这里是多变量的求导也就变成了求偏导，结果如下：

之前公式里设置的1/2 的原因在这里可以看到它的简化作用。这求导后的式子可以用一个简单的符号来表示. 下一步就需要开始迭代求解，迭代过程中向梯度的反方向移动，当梯度0时，那么这个时候所有的参数也就确定了。迭代公式如下：

Online algorithm

线性回归学习笔记 - zengkui111 - zengkui111的博客

其中表示步长，用来控制收敛速度。

Batch算法中的m为训练集的样本数。

那么为啥迭代的过程中为啥是梯度的反方向呢？用如下一个图例来解释比较合适。

线性回归学习笔记 - zengkui111 - zengkui111的博客

线性回归学习笔记 - zengkui111 - zengkui111的博客

至此，线性回归的原理部分介绍的差不多了，那么可以用一个实例加以说明。

这个例子背景说明可以参考之前的博文：

http://hi.baidu.com/kuizeng/item/fd19e5c7006ad966f6c95df2

代码是用python实现的online 算法，需要特别说明的是，网上也有不少了写过关于online和batch的算法，但是有不少实现将batch和online的算法搞混了。

#!/usr/bin/python

# -*- coding: utf-8 -*-

__author__ = "zengkui"

__version__ = "$Revision: 1.0 $"

__date__ = "$Date: 2012/08/04 21:20:19 $"

__copyright__ = "Copyright (c) 2012 zengkui"

__license__ = "Python"

import os

import sys

import math

class LinearRegression :

def __init__ ( self ) :

self.__LEARNING_RATE = 0.1

self.__MAX_FEATURE_CNT = 11

#the init weight of digit from 0 to 9 and also the Intercept

self.__theta = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

#training sample

self.samples = [[1,1,0,1,0,0,1,0,0,1,1,4], \

[1,0,1,0,0,1,0,0,3,0,0,0], \

[1,0,0,2,2,0,1,0,0,0,0,0], \

[1,2,0,1,0,1,1,0,0,0,0,2], \

[1,0,1,0,0,0,0,0,3,1,0,2], \

[1,0,1,0,0,1,1,1,1,0,0,1], \

[1,0,1,0,0,1,0,1,0,1,1,4], \

[1,2,0,1,1,0,0,0,0,0,1,3], \

[1,0,1,0,0,2,0,0,0,2,0,4], \

[1,0,0,1,0,1,1,0,0,1,1,3], \

[1,0,1,0,0,0,2,0,0,1,1,3], \

[1,1,1,1,1,0,0,1,0,0,0,2], \

[1,0,0,0,0,0,0,2,1,1,1,5]]

#test cases the last colum is answer for check

self.test_cases = \

[[1,1,0,0,1,1,1,0,0,1,0,3], \

[1,1,0,1,0,1,0,1,0,0,1,3], \

[1,0,1,1,1,0,0,1,0,1,0,3], \

[1,0,1,0,0,0,1,1,0,2,0,5], \

[1,0,1,0,1,1,1,0,0,1,0,2], \

[1,1,1,0,0,0,0,1,0,1,1,5], \

[1,0,0,1,0,0,1,0,0,0,3,3], \

[1,0,1,0,0,1,1,1,1,0,0,1], \

[1,0,0,0,2,0,0,0,1,0,2,2], \

[1,0,1,0,0,3,1,0,0,0,0,0], \

[1,0,1,1,2,0,0,0,0,1,0,2]]

def __hypothesis ( self, x ) :

h = 0

for idx in range ( 0, self.__MAX_FEATURE_CNT) :

h += x[idx] * self.__theta[idx]

return h

def __update_theta (self, x, delta ) :

for idx in range (0, self.__MAX_FEATURE_CNT) :

self.__theta[idx] -= x[idx] * delta

def __train (self ) :

for x in self.samples :

h = self.__hypothesis ( x[0:-1] )

y = x[self.__MAX_FEATURE_CNT]

delta = (h - y) * self.__LEARNING_RATE

self.__update_theta ( x, delta )

def __get_loss (self) :

loss_sum = 0

for x in self.samples :

h = self.__hypothesis ( x[0:-1] )

y = x[self.__MAX_FEATURE_CNT]

loss_sum += (h - y) * ( h - y ) / 2

return loss_sum

def online_training (self) :

for itr in range (0, 100) :

self.__train()

loss_sum = self.__get_loss ()

for i in range ( 0, self.__MAX_FEATURE_CNT ) :

print "theta[%d] = %lf" % (i, self.__theta[i])

print "The %dth iterator and loss is %lf" % ( itr, loss_sum)

if loss_sum < 0.00001 :

break

def test (self) :

for t in self.test_cases :

h = self.__hypothesis ( t[0:-1] )

print "H = %lf, ANS = %d" % ( h, t[self.__MAX_FEATURE_CNT])

if __name__ == "__main__" :

lr = LinearRegression();

lr.online_training()

lr.test()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。