第四课牛顿方法

最新推荐文章于 2021-10-13 17:36:34 发布

一束光流

最新推荐文章于 2021-10-13 17:36:34 发布

阅读量421

点赞数

分类专栏：机器学习笔记

机器学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

牛顿方法，一种最大（小）化算法

—–Newton’s method

算法原理，对函数f( $\theta$ )，使用下式进行迭代：
这里写图片描述
最终 $\theta$ 的收敛值会使得f( $\theta$ )=0，图像只管理解如下，详细介绍在note1 page20：

对于最大化问题，我们应当使目标函数的导数为0，因此f( $\theta$ )在这里为目标函数的一阶导数ℓ′(θ)：

在逻辑回归中， $\theta$ 为向量，因此迭代公式为矩阵形式：
这里写图片描述
这里H叫做Hessian矩阵：

过半情况下，牛顿法比梯度下降法收敛更快，但是当θ的维数很高时，求逆的计算代价很大。档牛顿法用于最大化log likelihood function时，该方法也被叫做Fisher scoring。

通用线性模型

—–Generalized Linear Models

之前介绍的高斯分布和伯努利分布的分类，都是在一个更大的模型里，我们叫做Generalized Linear Models，接下来我们将对GLM进行推导并应用于其他的回归分类问题。

指数家族

—–The exponential family

对于可以写成如下形式的分布，我们称其在指数家族中：
这里写图片描述
η：natural parameter/canonical parameter
T(y)：sufficient statistic/充分统计量（统计学中的概念，日后再理解），通常情况下为y。
a(η)：log partition function； $e^{-a(η)}$ 是一个归一化常量，它确保p(y; η)的积分为1。
对于固定的T，a和b定义了一个参数为η的分布族，当我们改变η，我们会获得这个族中不同的分布。

对于伯努利分布：
这里写图片描述

对于高斯函数，为了简化推导过程，令方差为1，则：

由此可见，伯努利分布高斯分布都是指数分布族。
事实上还有许多分布也在指数族中，例如泊松，多项式分布multinomial，伽马和指数分布等。接下来讨论如何建立一种模型，该模型能通过给定的x和 $\theta$ 来得到y。

建立GLMs

为了推导GLMs，我们首先要对y对x的条件分布做如下三点假设：
1.y | x; θ∼ ExponentialFamily(η).
2.给定x，我们的目标是预测T(y)的期望值，当T(y)=y, $h_{\theta}(x)$ =E[y|x; θ].
3.natural parameter η和inputs x满足线性关系：η = θT x；如果η是一个向量，那么 $\eta _{i}=\theta_{i}^{T}x$ .
第三条假设是最难满足的一条，接下来我们将用GLM推导逻辑回归和最小二乘法。

最小二乘法

目标变量y在GLM术语中被称为response variable，假设我们假设条件分布满足高斯分布，则由之前的推导，得到 $u=\eta$ ,所以：
这里写图片描述

逻辑回归

如果y|x; θ ∼ Bernoulli(φ), then E[y|x; θ] = φ，由之前的推导，φ = 1/(1 + $e^{-\eta}$ ),可得：
这里写图片描述
$g(η) = E[T(y); η]$ 被称作canonical response function
$g^{-1}$ 被称作canonical link function

Softmax Regression

对于预测目标 $y ∈{1 2, . . . , k}$ ，这是一个多分类问题。可以将其定义为多项式分布。
因为多分类问题有k个可能的结果，因此使用k个参数 $φ1, . . . , φk$ 来表示每种结果的可能性，事实上只需要k-1个参数就可以表示所有的参数，因为 $\sum_{k}^{i=1}\varphi_i=1$ 。
为了把多项式分布表示为指数族分布，定义 $T(y)\in R^{k-1}$ :
这里写图片描述
这里介绍一个指示函数indicator function 1{·}：1{True} = 1, 1{False} = 0.
所以(T(y))i = 1{y = i}，(T(y))i表示T(y)的第i个元素
再之后我们还有E[(T(y))i] = P(y = i) = φi.
首先我们证明多项式分布是指数家族的一员：

这里：
这里写图片描述
link function为：

为了方便我们定义 $η_k = log(φ_k/φ_k) = 0$ 对link function求逆得到response function：

这意味着 ${\varphi}_k=1/\sum_{i=1}^ke^{\eta_i}$ ,带入上式可得

从 $\eta$ 到 ${\varphi}$ 的映射成为softmax function
根据假设可得：
这里写图片描述
应用在多分类问题上的该模型成为softmax regression

换句话说，对于每一个i = 1, … , k，我们的假设都会输出一个估计的可能性p(y = i|x; θ)。

最后对于参数的训练，我们写下 log-likelihood函数
这里写图片描述
我们使用梯度上升或者牛顿法来获取最大值点。

一束光流

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第四课牛顿方法

牛顿方法，一种最大（小）化算法—–Newton’s method算法原理，对函数f(θ\theta)，使用下式进行迭代：最终θ\theta的收敛值会使得f(θ\theta)=0，图像只管理解如下，详细介绍在note1 page20：对于最大化问题，我们应当使目标函数的导数为0，因此f(θ\theta)在这里为目标函数的一阶导数ℓ′(θ)：在逻辑回归中，θ\theta为向量，因
复制链接

扫一扫