斯坦福大学公开课机器学习课程(Andrew Ng)四牛顿方法与广义线性模型

原创 2017年07月11日 13:25:39

本次课所讲主要内容:

1、  牛顿方法:对Logistic模型进行拟合

2、 指数分布族

3、  广义线性模型(GLM:联系Logistic回归和最小二乘模型


一、牛顿方法


       牛顿方法与梯度下降法的功能一样,都是对解空间进行搜索的方法。

假设有函数,需要找使=0

步骤:

1)       给出一个的初始值

2)        的切线,延长该切线与x轴交于一点

3)          令x轴交点处为新的,重复步骤二。

如下图所示:


因为过切线的斜率等于高/底,即切线的斜率便等于的导数,高为,底便等于的导数除以 ,即每次更新的变化量为的导数除以 

所以更新规则为: 


牛顿方法在机器学习中的应用

对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取值最大时,其导数为0,这样就和上面函数f取0的问题一致了。

极大似然函数的求解更新规则为:

牛顿方法的收敛速度:二次收敛

每次迭代使解的有效数字的数目加倍:假设当前误差是0.1,一次迭代后,误差为0.001,再一次迭代,误差为0.0000001。该性质当解距离最优质的足够近才会发现。

上面是当参数为实数时,进一步推广,当参数为向量时,更新规则如下:


HHessian矩阵,后面的是目标函数的梯度。H的规模是n*nn为参数向量的长度,它的每个元素表示一个二阶导数,计算公式如下:


牛顿方法的优缺点:

优点:若特征数和样本数合理,牛顿方法的迭代次数比梯度上升要少得多

缺点:每次迭代都要重新计算Hessian矩阵,如果特征很多,则H矩阵计算代价很大


二、指数分布族


指数分布族是指可以表示为指数形式的概率分布。指数分布的形式如下:


η - 自然参数,通常是一个实数

T(y) – 充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识)

当a、b、T都给定时,上式定义了一个以η为参数的函数族。

下面我们将伯努利分布与高斯分布转换为指数分布族的形式。

伯努利分布

伯努利分布是对0,1进行建模,它的形式如下:


对其进行如下转换:


有公式(7),对比公式(5),我们就可以分别得到公式(5)中各参数,如下:


由上式可以发现所对应的函数和上一篇中所提到的logistic函数一致(很奇妙的感觉~~)。之所以出现这种情况,是因为logistic函数模型对问题的前置概率估计是伯努利分布的缘故。

高斯分布

     高斯分布的形式为。有高斯分布可以推导出线性模型,由线性模型的假设函数可知,高斯分布的方差与假设函数无关,所以为了简便计算,我们将方差设为1,。

高斯分布转换为指数分布的推导过程如下:

有公式(8)可知,高斯分布转换为指数分布族的参数分别为:


三、广义线性模型


      定义了指数分布族之后有什么用呢?我们可以通过指数分布族引出广义线性模型(generalized linear model, GLM)。

在统计学上,广义线性模型是一种受到广泛应用的线性回归模式。此模式假设实验者所量测的随机变数的分布函数与实验中系统性效应(即非随机的效应)可经由一链接函数(link function)建立起可资解释其相关性的函数。

注意到上述公式7与公式8的变量,在公式7中变量与伯努利分布中的参数的关系是logistic函数,在通过推到可以得到logisti回归;在公式8中,与正态分布的参数u的关系是限等,我们可以推导出最小二乘模型(OLS)。通过这两个例子,可以猜想,以不同的映射函数与其他概率分布函数中的成员发生联系,从而得到不同的模型,广义线性模型正是将指数分布族中的所有成员(每个成员正好有一个这样的联系)都做为线性模型的拓展,通过各种非线性的连接函数将线性函数映射到其他空间从而大大扩大了线性模型可解决的问题。

广义线性模型有三个假设:

(1),即假设试图预测的变量y在给定x,以θ作为参数的条件概率,属于以η作为自然参数的指数分布族

例:若要统计网站点击量y,用泊松分布建模

(2) 给定x,目标是求出以x为条件的T(y)的期望E[T(y)|x],即让学习算法输出h(x) = E[T(y)|x]

(3),即自然参数和输入特征x之间线性相关,关系由θ决定。仅当η是实数时才有意义。若η是一个向量,

依据这三个假设,可以推导出logistic模型与最小二乘模型

logistic模型的推导如下:

在这个式子中,第一行是伯努利分布的性质,第二行有假设二和假设三得出。

最小二乘模型的推导如下:

正则响应函数g(η) = E[y;η],将自然参数η和原始概率分布中的参数联系起来的函数

正则关联函数g-1


总结:广义线性模型通过假设一个概率分布,得到不同模型,例如当选取高斯分布时,就可以得到最小二乘模型,当选取伯努利分布时就得到logistic模型,而梯度下降、牛顿方法都是为了求取使所建立模型有最优解的未知参数

参考:

斯坦福ML公开课笔记

http://blog.csdn.net/maverick1990/article/details/12564973


版权声明:本文为博主原创文章,未经博主允许不得转载。

Andrew Ng机器学习课程之学习笔记---牛顿方法

牛顿方法 本次课程大纲: 1、  牛顿方法:对Logistic模型进行拟合 2、 指数分布族 3、  广义线性模型(GLM):联系Logistic回归和最小二乘模型   复习: Logi...
  • wjk7186912
  • wjk7186912
  • 2017年06月03日 11:32
  • 307

《机器学习》(Machine Learning)——Andrew Ng 斯坦福大学公开课学习笔记(二)

第3集  欠拟合和过拟合的概念 一、线性回归的解释 ,最后一项表示误差项(独立同分布),对前面未被建模的因素进行考虑,一般误差项的加和,根据中心极限定理,符合高斯分布 推出:...
  • u013896242
  • u013896242
  • 2015年08月06日 21:02
  • 1299

Coursera上Andrew Ng机器学习课程总结(一)

利用大约一个月的时间把coursera公开课Andrew Ng讲授的机器学习课程看完了,并且把8个编程联系也实现了,写篇总结来归纳下知识点。客观的来说,这门公开课很偏工程,老师对于数学知识能省则省,对...
  • Crawler_Star
  • Crawler_Star
  • 2015年03月30日 20:05
  • 3773

斯坦福大学Andrew Ng教授主讲的《机器学习》公开课观后感

近日,在网易公开课视频网站上看完了《机器学习》课程视频,现做个学后感,也叫观后感吧。  学习时间 从2013年7月26日星期五开始,在网易公开课视频网站上,观看由斯坦福大学Andrew ...
  • lotus___
  • lotus___
  • 2014年03月03日 09:15
  • 63109

Nani_xiao的机器学习与总结:Andrew Ng.机器学习(四) :牛顿方法

Andrew Ng 机器学习笔记与总结(四)牛顿方法
  • xiao_lxl
  • xiao_lxl
  • 2015年04月17日 19:20
  • 918

监督学习之广义线性模型——Andrew Ng机器学习笔记(三)

内容提要这篇博客的主要内容有 - 牛顿法 - 指数分布族(Exponential Family) - 广义线性模型(Generalized Linear Models) - Softmax R...
  • A_cainiao_A
  • A_cainiao_A
  • 2015年12月23日 19:30
  • 1162

斯坦福大学公开课 :机器学习课程(Andrew Ng)——8、监督学习:Learning Theory

1)交叉验证(Cross validation)     1.1)hold-out cross validation或者称为简单交叉验证     1.2)k-fold cross validatio...
  • mmc2015
  • mmc2015
  • 2015年01月04日 19:53
  • 1514

Coursera公开课笔记: 斯坦福大学机器学习第一课“引言(Introduction)”

Coursera公开课笔记: 斯坦福大学机器学习第一课“引言(Introduction)” 注:这是我在“我爱公开课”上做的学习笔记,会在52opencourse和这里同步更新。随着Courser...
  • GarfieldEr007
  • GarfieldEr007
  • 2015年11月16日 12:33
  • 1240

斯坦福大学公开课 :机器学习课程(Andrew Ng)——13、无监督学习:Principal Component Analysis (PCA)

1)问题起源    真实的训练数据总是存在各种各样的问题:     1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多...
  • mmc2015
  • mmc2015
  • 2015年01月06日 15:23
  • 1487

斯坦福机器学习: 网易公开课系列笔记(四)——牛顿法、广义线性模型

牛顿法      给定一个函数图像,如何求得使f(x)=0的x?       首先初始化一个点X0,过f(X0)做函数切线,得到与X轴的交点X1,再过f(X1)做函数切线,得到与X轴的交点X2,以此...
  • qsczse943062710
  • qsczse943062710
  • 2017年02月18日 22:50
  • 796
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:斯坦福大学公开课机器学习课程(Andrew Ng)四牛顿方法与广义线性模型
举报原因:
原因补充:

(最多只允许输入30个字)