machine learning2

最新推荐文章于 2020-01-02 19:43:15 发布

Z_shsf

最新推荐文章于 2020-01-02 19:43:15 发布

阅读量608

点赞数 1

分类专栏： signal processing machine learning 文章标签：机器学习

本文链接：https://blog.csdn.net/ZSZ_shsf/article/details/48756201

版权

machine learning 同时被 2 个专栏收录

56 篇文章 0 订阅

订阅专栏

signal processing

55 篇文章 11 订阅

订阅专栏

牛顿方法

做似然函数最大（小）化：一般过程都是，求出一个似然函数，求导使导数等于零，然后导数为零处就是极值，使导数等于零的这一步就可以用牛顿方法来做，

θ : = θ - l ' ( θ ) l '' ( θ )

$\theta:=\theta-\frac{l'(\theta)}{l''(\theta)}$ 由于

θ $\theta$ 是矢量，引入hessian矩阵H

θ : = θ - H - 1 \nabla θ l (θ)

$\theta:=\theta-H^{-1}\nabla_\theta l(\theta)$

H i j = \partial 2 l ( θ ) \partial θ i θ j

$H_{ij}=\frac{\partial ^2l(\theta)}{\partial \theta_i \theta_j}$ 牛顿方法就是这样一个参数更新过程，取正切，即导数的数学意义，延长切线与水平轴相交于一点，这点就是新参数取值，直到为零。
牛顿方法是二次收敛，收敛速度在数据集不大的情况下远大于前面求导数等于零的速度，其主要计算量在于hessian矩阵求逆这一步。有一定的应用。

指数分布簇

大一统的时候到了，有没有人对此倍感兴奋！！！
首先指数分布簇的形式，

p (y; η) = b (y) e x p (η T T (y) - a (η))

$p(y;\eta)=b(y)exp(\eta^T T(y)-a(\eta))$

η $\eta$ :natural parameter(or canonical parameter);

T(y) $T(y)$ :sufficient statistic

a(η) $a(\eta)$ :log partition function
选定不同的T，a，b可以得到由参数控制的特定分布，比如伯努利分布

p (y; ϕ) = e x p ((l o g (ϕ 1 - ϕ) y + l o g (1 - ϕ))

$p(y;\phi) = exp((log(\frac{\phi}{{1-\phi}})y+log(1-\phi))$ 和高斯分布

p (y; u) = 1 ( 2 π ) - - - - \sqrt e x p (- 1 2 y 2) e x p (μ y - 1 2 μ 2)

$p(y;u)=\frac1{\sqrt{(2\pi)}}exp(-\frac12y^2)exp(\mu y-\frac12\mu^2)$ ，推导过程很简单，就跟解多元一次方程似的。需要指出的是多项式分布，泊松分布（常用于对计数情况的建模），gamma和指数分布（连续变量的，非负随机变量，比如预计车到达时间），beta分布以及dirichlet分布（对小数建模，尤其是基于概率的分布），wishart分布（协方差矩阵分布）都属于这个指数分布簇！
构建Generalized Linear Models
三个假设：1）符合指数分布簇；2）由给定的x预测T(y)，T（y）一般情况下等于y，通过学习假设来预测h(x)输出；2）自然参数和输入变量线性相关

ηi=θTix $\eta_i =\theta^T_i x$
回顾最小二乘，逻辑回归，都满足这个模型。

softmax regression

分类问题如果不是二分类而是多分类呢？这需要使用多项式分布，假设有k类，则令k个参数为\phi，去除相关性，只考虑其中k-1个参数（因为要满足概率之和等于1，\phi值等于y取k时的概率值）定义指示函数(1{true}=1,1{false}=0)，并使

(T (y)) i = 1 {y = 1}

$(T(y))_i=1\{y=1\}$ ,二项式分布化为指数簇得：

p (y; ϕ) = \prod i = 1 k - 1 ϕ (T (y)) i i * ϕ 1 - \sum k - 1 i = 1 (T (y)) i k

$p(y;\phi)=\prod_{i = 1}^{k-1}\phi_i^{(T(y))_i}*\phi_k^{1-\sum_{i=1}^{k-1}(T(y))_i}$

η=log(ϕiϕk),a(η)=−log(ϕk),b(y)=1,ϕi=eηi∑kj=1eηj=p(y=i|x;θ) $\eta = log(\frac{\phi_i}{\phi_k}),a(\eta)= -log(\phi_k),b(y)=1,\phi_i=\frac{e^{\eta_i}}{\sum_{j=1}^k e^{\eta_j}}=p(y=i|x;\theta)$ 假设