斯坦福大学公开课机器学习课程(Andrew Ng)四牛顿方法与广义线性模型

原创 2017年07月11日 13:25:39

本次课所讲主要内容:

1、  牛顿方法:对Logistic模型进行拟合

2、 指数分布族

3、  广义线性模型(GLM:联系Logistic回归和最小二乘模型


一、牛顿方法


       牛顿方法与梯度下降法的功能一样,都是对解空间进行搜索的方法。

假设有函数,需要找使=0

步骤:

1)       给出一个的初始值

2)        的切线,延长该切线与x轴交于一点

3)          令x轴交点处为新的,重复步骤二。

如下图所示:


因为过切线的斜率等于高/底,即切线的斜率便等于的导数,高为,底便等于的导数除以 ,即每次更新的变化量为的导数除以 

所以更新规则为: 


牛顿方法在机器学习中的应用

对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取值最大时,其导数为0,这样就和上面函数f取0的问题一致了。

极大似然函数的求解更新规则为:

牛顿方法的收敛速度:二次收敛

每次迭代使解的有效数字的数目加倍:假设当前误差是0.1,一次迭代后,误差为0.001,再一次迭代,误差为0.0000001。该性质当解距离最优质的足够近才会发现。

上面是当参数为实数时,进一步推广,当参数为向量时,更新规则如下:


HHessian矩阵,后面的是目标函数的梯度。H的规模是n*nn为参数向量的长度,它的每个元素表示一个二阶导数,计算公式如下:


牛顿方法的优缺点:

优点:若特征数和样本数合理,牛顿方法的迭代次数比梯度上升要少得多

缺点:每次迭代都要重新计算Hessian矩阵,如果特征很多,则H矩阵计算代价很大


二、指数分布族


指数分布族是指可以表示为指数形式的概率分布。指数分布的形式如下:


η - 自然参数,通常是一个实数

T(y) – 充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识)

当a、b、T都给定时,上式定义了一个以η为参数的函数族。

下面我们将伯努利分布与高斯分布转换为指数分布族的形式。

伯努利分布

伯努利分布是对0,1进行建模,它的形式如下:


对其进行如下转换:


有公式(7),对比公式(5),我们就可以分别得到公式(5)中各参数,如下:


由上式可以发现所对应的函数和上一篇中所提到的logistic函数一致(很奇妙的感觉~~)。之所以出现这种情况,是因为logistic函数模型对问题的前置概率估计是伯努利分布的缘故。

高斯分布

     高斯分布的形式为。有高斯分布可以推导出线性模型,由线性模型的假设函数可知,高斯分布的方差与假设函数无关,所以为了简便计算,我们将方差设为1,。

高斯分布转换为指数分布的推导过程如下:

有公式(8)可知,高斯分布转换为指数分布族的参数分别为:


三、广义线性模型


      定义了指数分布族之后有什么用呢?我们可以通过指数分布族引出广义线性模型(generalized linear model, GLM)。

在统计学上,广义线性模型是一种受到广泛应用的线性回归模式。此模式假设实验者所量测的随机变数的分布函数与实验中系统性效应(即非随机的效应)可经由一链接函数(link function)建立起可资解释其相关性的函数。

注意到上述公式7与公式8的变量,在公式7中变量与伯努利分布中的参数的关系是logistic函数,在通过推到可以得到logisti回归;在公式8中,与正态分布的参数u的关系是限等,我们可以推导出最小二乘模型(OLS)。通过这两个例子,可以猜想,以不同的映射函数与其他概率分布函数中的成员发生联系,从而得到不同的模型,广义线性模型正是将指数分布族中的所有成员(每个成员正好有一个这样的联系)都做为线性模型的拓展,通过各种非线性的连接函数将线性函数映射到其他空间从而大大扩大了线性模型可解决的问题。

广义线性模型有三个假设:

(1),即假设试图预测的变量y在给定x,以θ作为参数的条件概率,属于以η作为自然参数的指数分布族

例:若要统计网站点击量y,用泊松分布建模

(2) 给定x,目标是求出以x为条件的T(y)的期望E[T(y)|x],即让学习算法输出h(x) = E[T(y)|x]

(3),即自然参数和输入特征x之间线性相关,关系由θ决定。仅当η是实数时才有意义。若η是一个向量,

依据这三个假设,可以推导出logistic模型与最小二乘模型

logistic模型的推导如下:

在这个式子中,第一行是伯努利分布的性质,第二行有假设二和假设三得出。

最小二乘模型的推导如下:

正则响应函数g(η) = E[y;η],将自然参数η和原始概率分布中的参数联系起来的函数

正则关联函数g-1


总结:广义线性模型通过假设一个概率分布,得到不同模型,例如当选取高斯分布时,就可以得到最小二乘模型,当选取伯努利分布时就得到logistic模型,而梯度下降、牛顿方法都是为了求取使所建立模型有最优解的未知参数

参考:

斯坦福ML公开课笔记

http://blog.csdn.net/maverick1990/article/details/12564973


版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

Coursera机器学习(Andrew Ng)笔记:回归与分类问题

机器学习中的线性回归与分类问题基础

斯坦福大学公开课机器学习课程(Andrew Ng)三欠拟合与过拟合

概要 本节课的主要内容有: 1、  局部加权回归:线性回归的变化版本 2、  概率解释:另一种可能的对于线性回归的解释 3、  Logistic回归: 基于2的分类算法,也是第一个要学的分类算...

斯坦福机器学习: 网易公开课系列笔记(四)——牛顿法、广义线性模型

牛顿法      给定一个函数图像,如何求得使f(x)=0的x?       首先初始化一个点X0,过f(X0)做函数切线,得到与X轴的交点X1,再过f(X1)做函数切线,得到与X轴的交点X2,以此...

【学习笔记】斯坦福大学公开课(机器学习) 之广义线性模型

广义线性模型(GLM)是在指数分布族基础上形成的模型,对于指数分布族中,参数η\eta都可以有其他对应函数来替代,从而得到指数分布族模型的扩展。为引入GLM来解决问题,我们做三个假设: 1.y|x;...

【机器学习-斯坦福】学习笔记4 ——牛顿方法;指数分布族; 广义线性模型(GLM)

牛顿方法 本次课程大纲: 1、  牛顿方法:对Logistic模型进行拟合 2、 指数分布族 3、  广义线性模型(GLM):联系Logistic回归和最小二乘模型   复习: Logi...

斯坦福大学公开课机器学习课程(Andrew Ng)七最优间隔分类器

课程概要: 1.最优间隔分类器 2.原始/对偶问题 3.svn的对偶问题     在上篇中,我们提到了函数间隔与几何间隔,这两个定义是 svm 的基本定义,因为svn比较复杂,这里先简要介绍一下svn...

斯坦福大学公开课 :机器学习课程(Andrew Ng)——1、整体看一看

============================================================================【课程综述】==================...
  • mmc2015
  • mmc2015
  • 2015年01月02日 15:45
  • 2179

斯坦福大学公开课机器学习课程(Andrew Ng)八顺序最小优化算法

课程概要: 1.核技法 2.软间隔分类器 3.SVM求解的序列最小化算法(SMO) 4.SVM应用 一.核技法 回忆一下上篇中得到的简化的最优问题,,#1: 定义函数ϕ(x)为向量之间的映射...

斯坦福大学公开课 :机器学习课程(Andrew Ng)——3、监督学习:Gaussian Discriminant Analysis (GDA)

1)判别模型和生成模型(Discriminative/Generative Model) 2)高斯判别分析(Gaussian Discriminant Analysis(GDA))   2.1) 多...
  • mmc2015
  • mmc2015
  • 2015年01月02日 19:23
  • 2623

斯坦福大学公开课 :机器学习课程(Andrew Ng)——12、无监督学习:Factor Analysis

1)问题描述 2)协方差矩阵的限制 3)多元高斯分布的边缘分布和条件分布 4)因子分析的例子 5)因子分析模型 6)因子分析的EM估计‘ 7)简单总结 1)问题描述    之前我们考虑...
  • mmc2015
  • mmc2015
  • 2015年01月06日 14:31
  • 1349
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:斯坦福大学公开课机器学习课程(Andrew Ng)四牛顿方法与广义线性模型
举报原因:
原因补充:

(最多只允许输入30个字)