机器学习之概率与统计(三)- 极大似然估计

     目录

一、参数估计

二、极大释然估计

1.似然函数

2.极大似然估计(MLE)

3.log似然函数

4.损失函数

5.求极大似然估计的一般步骤

三、常见分布的参数估计

1.高斯分布

2.Bernoulli分布

3.二项分布(Binomia)

4.多项分布(Multinoull)

四、机器学习模型的参数估计

1.回归

2.线性回归

2.1线性回归的极大似然估计

3.Logistic回归

3.1 Logistic回归的极大似然估计

4. 朴素贝叶斯(Naive Bayes Classifier, NBC)

4.1定义

4.2朴素贝叶斯的极大似然估计

五、估计的评价

1.    估计量的评价标准

2.    偏差-方差分解

3.    监督学习模型的偏差-方差分解

4.    估计的抽样分布

4.1参数Bootstrap

4.2非参数Bootstrap

 

 

一、参数估计

  参数估计,即估计模型的参数:给定模型p(x|Ɵ)和数据D,选择与数据最匹配的参数Ɵ。

  常用估计模型参数的方法:

  (1)矩方法,比如一阶矩,二阶矩,…,K阶矩;

  (2)极大释然估计:频率学派

  (3)贝叶斯估计:贝叶斯学派

 

二、极大释然估计

1.似然函数

    似然(likelihood,可能性的意思),描述的是事件发生可能性的大小。

    似然函数的定义:

    设数据D=X1,…,XN为独立同分布(IID),其概率密度函数(pdf)为p(x|Ɵ),则似然函数定义为:

       clip_image001

    即为在给定数据D的情况下,参数为Ɵ的函数。

 

2.极大似然估计(MLE)

    定义:使得似然函数L(Ɵ)最大的Ɵ的估计:

        clip_image002

3.log似然函数

    定义:

       clip_image003

    即:

       clip_image004

    性质:

(1)  它和似然函数在相同的位置取极大值

(2)  在不引起混淆的情况下,有时记log似然函数为似然函数

(3)  相差常数倍也不影响似然函数取极大值的位置,因此似然函数中的常数项也可以抛弃

(4)  在分类中log似然有时亦称为交叉熵(cross-entropy)

 

4.损失函数

    损失函数 = 负log似然函数,即:

    损失函数 = - log p( Ɵ|D)

 

5.求极大似然估计的一般步骤

(1)选择模型

(2)得到密度函数p(x)

(3)求似然函数L = Ʃ log.p(x)

(4)对似然函数求极值(求导),得到参数估计

 

三、常见分布的参数估计

1.高斯分布

假设X1,…,XN ~ N (μ, δ2 ),参数为μ, δ2,则高斯分布:

   clip_image005

的似然函数为:

   clip_image006

其中,

样本均值:

   clip_image007 

样本方差:   

clip_image008

     因为有:

               clip_image009

      高斯分布的似然函数化简为:

    clip_image010

    求最大值(求梯度,解方程):

       clip_image011

  得到极值点(一阶导数为0):

      clip_image012[4]

     说明,使用样本的均值和方差作为高斯分布的参数估计,是极大似然的。

 

2.Bernoulli分布

Bernoulli分布的密度函数为:

clip_image013

其似然函数为:

     clip_image014

其中,N1为试验结果为1的次数,N2为试验结果为0的次数,

     clip_image015

求极大似然有:

     clip_image016

即样本实验结果为1的比率,是Bernoulli分布的参数Ɵ的极大释然估计。

 

3.二项分布(Binomia)

Binomia分布的密度函数为:

clip_image017

    其似然函数为:

       clip_image018

    其极大释然估计和Bernoulli分布一样:

    求极大似然有:

     clip_image016[1]

即样本实验结果为1的比率,是 Binomia分布的参数Ɵ的极大释然估计。

 

4.多项分布(Multinoull)

Multinoull分布的密度函数为:

clip_image019

其似然函数为(其中NK表示N次试验中出现k的次数):

   clip_image020

约束条件为:

   clip_image021

采用拉格朗日乘子法求极值:

  clip_image022

分别对λ和θk求偏导并令其等于0:

clip_image023

即为θ的最大释然参数估计。

 

四、机器学习模型的参数估计

1. 回归

(1)  正态分布可用于回归系统噪声建模

(2)  回归是监督学习问题,是输入到输出的映射的学习。

(3)  回归问题的模型:

clip_image024

假设残差服从正态分布:

     clip_image025

    因此,回归问题的模型可以记为:

     clip_image026

    回归即预测其输出:

     clip_image027

2.线性回归

    线性回归:输入与输出呈线性关系。

    相信回归的模型:

       clip_image028

    即:

       clip_image029

    其中W0是截距,W为权重向量,ε为预测值和真值之间的残差。模型的参数为Ɵ =(W, δ2

 

2.1 线性回归的极大似然估计

2.1.1 线性回归的似然函数

    线性回归的似然函数为:

       clip_image030

    其中,RSS表示残差平方和(residual sum of squares),即残差向量的L2模:

       clip_image031

    注:平均平方误差(MSE)  = RSS/N

 

2.1.2 负log似然函数求参数估计

极大似然等价为极小负log似然损失(negative log likelihood,NLL):

clip_image032

    只取与w有关的项,得到:

       clip_image033

    因为有矩阵求导:

       clip_image034

所以NLL求导有:

        clip_image035

求解得到:

        clip_image036[4]

即为W的极大似然估计,把其代入NLL,则有:

        clip_image037

求导有:

clip_image038

求解得:

    clip_image039

以上便是线性回归参数Ɵ =(W, δ2)的极大似然估计。

 

2.1.3 计算机求解线性回归的解极大似然估计

1)当样本数目N较小时,可采用OLS结论,用矩阵QR分解分解得到优化解。

2)当样本数目N较大时,可采用随机梯度下降方法优化求解:

<1> 目标函数:

     clip_image040

<2> 梯度下降法步骤:

i)给定初值w0

ii) 更新w,使得J(W)越来越小

   clip_image041

iii) w的各维同时更新:

   clip_image042

iv) 直到收敛到某个w值,使得J(W)最小

其中,α称为学习率,控制下降速度的大小。

 

3.Logistic回归

(1)Logistic回归是线性回归的扩展,用于分类任务(0, 1)

(2)分类目标为二值变量,因此服从Bernoulli分布:

        P(y|θ)  = clip_image044

    其中y为类别输入(0,1)。

    假设输入为x的线性组合,即输入为x的函数μ(x),则Bernoulli分布的密度函数可以写为:

       P(y|μ(x) )  = clip_image046

    其中:0≤μ(x)≤1

(3)  在Logistic回归中,输入的x的函数(概率密度函数)为:

μ(x) = sigm(wTx)

其中sigm()为sigmoid函数,或logistic函数:

clip_image047

(4)  logistic回归的概率密度函数为:

clip_image048

 

 

3.1 Logistic回归的极大似然估计

(1)负log似然函数求参数估计

Logistic回归的似然函数为:

     clip_image049

其中,

μi = μ(xi) = sigm(wTx)

    y= 分类标签(0,1)

(1)  梯度下降法求解

1)对似然函数进行求导

clip_image050

其中,

clip_image051

以上用到的矩阵求导:

clip_image052

2)得到梯度函数

clip_image053

3)使用梯度进行迭代

clip_image054

即:

clip_image055

其中,

clip_image056

(2)  牛顿法求解

1)牛顿法也叫牛顿-拉夫逊(Newton-Raphson)方法,也叫二阶梯度下降法。

2)原理:使用函数f(x)的泰勒级数的前面几项来寻找方程f(x)=0的根

3)步骤:

i)       将导数g(w)在wt处进行Taylor展开:

clip_image057

ii)     由上式得到:

clip_image058

iii)   迭代式为:

clip_image059

 

 

4. 朴素贝叶斯(Naive Bayes Classifier, NBC)

4.1定义

       假设共有C个类别y∈(1,2,…,C),每个类别有特征X=(x1,x2,…xD), 则朴素贝叶斯为假设各维特征在给定类别标签的情况下条件独立:

clip_image060

概率密度函数:

       clip_image061

其中,π、θ分别为y的先验分布和类条件分布的参数。

4.2朴素贝叶斯的极大似然估计

(1)似然函数为:

    clip_image062

    其中Nc为y=c的样本数。

(2)  如果服从Bernoulli分布

clip_image063

则参数估计:

clip_image064

其中:

clip_image065

(3)  如果服从多值分布

clip_image066

则参数估计:

clip_image067

其中:

clip_image068

(4)  如果服从正泰分布

clip_image069

则参数估计:

clip_image070

(5)  使用朴素贝叶斯进行预测

将给定数据条件D换成参数的MLE插入,得到:

clip_image071

例如Bernoulli分布的预测:

clip_image072

 

五、估计的评价

1.   估计量的评价标准

一个好的估计具有的性质:

(1)   无偏性:估计量的期望等于真值的期望:

即估计的偏差(bias):

clip_image073

等于0。

(2)   相容性

若:

clip_image074

则该估计是相容(consistent)的。

(3)   有效性

无偏估计中,方差较小的一个更有效(收敛速度更快)

 

2.  偏差-方差分解

点估计的性能通过均方误差(MSE, mean squared error)来评价:

clip_image075

可分解为:

clip_image076

其中,

估计的偏差为:

 clip_image077

估计的变化程度(精度)为:

  clip_image078

(1)   如果bias = 0, 称其为无偏估计

(2)   为了使估计的MSE小,估计的偏差和方差到要小。

 

3.   监督学习模型的偏差-方差分解

在回归任务中,学习算法f的平方预测误差期望为:

clip_image079

(1)   偏差:学习算法的预测的期望与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力。

(2)   方差:同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动所造成的影响。

(3)   噪声:在当前任务上任何学习算法所能达到的期望泛化误差的下界, 即刻画了学习问题本身的     难度。

 

4.  估计的抽样分布

解决的问题:分布的参数真值未知,无法产生真实的模拟数据。

如何解决?:估计的抽样分布

 

估计的抽样分布:

假设从真实分布:

       clip_image080

中进行S次抽样,每次的样本集的大小均为N, 得到数据集合

        clip_image081

根据每次抽样得到的数据D(s),都会得到一个估计:

        clip_image082

当S -> ∞ 时,使用估计的参数代替真实的参数,称为估计的抽样分布。

 

4.1 参数Bootstrap

Bootstrap(一种重采样技术),用clip_image084代替clip_image086[4],从分布clip_image088[4]中产生样本。

 

4.2 非参数Bootstrap

从原始数据中进行N次有放回地采样N个数据,用经验分布近似真正的分布

 

  • 4
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值