机器学习之概率与统计（三）- 极大似然估计

最新推荐文章于 2024-06-05 20:22:59 发布

java师

最新推荐文章于 2024-06-05 20:22:59 发布

阅读量1w

点赞数 4

目录

一、参数估计

二、极大释然估计

1．似然函数

2．极大似然估计（MLE）

3．log似然函数

4．损失函数

5．求极大似然估计的一般步骤

三、常见分布的参数估计

1．高斯分布

2．Bernoulli分布

3．二项分布（Binomia）

4．多项分布（Multinoull）

四、机器学习模型的参数估计

1.回归

2．线性回归

2.1线性回归的极大似然估计

3．Logistic回归

3.1 Logistic回归的极大似然估计

4. 朴素贝叶斯(Naive Bayes Classifier, NBC)

4.1定义

4.2朴素贝叶斯的极大似然估计

五、估计的评价

1. 估计量的评价标准

2. 偏差-方差分解

3. 监督学习模型的偏差-方差分解

4. 估计的抽样分布

4.1参数Bootstrap

4.2非参数Bootstrap

一、参数估计

　　参数估计，即估计模型的参数：给定模型p(x|Ɵ)和数据D，选择与数据最匹配的参数Ɵ。

　　常用估计模型参数的方法：

　　(1)矩方法，比如一阶矩，二阶矩，…，K阶矩；

　　(2)极大释然估计：频率学派

　　(3)贝叶斯估计：贝叶斯学派

二、极大释然估计

1．似然函数

似然（likelihood，可能性的意思），描述的是事件发生可能性的大小。

似然函数的定义：

设数据D=X₁,…,X_N为独立同分布（IID），其概率密度函数（pdf）为p(x|Ɵ)，则似然函数定义为：

即为在给定数据D的情况下，参数为Ɵ的函数。

2．极大似然估计（MLE）

定义：使得似然函数L(Ɵ)最大的Ɵ的估计：

3．log似然函数

定义：

即：

性质：

（1）它和似然函数在相同的位置取极大值

（2）在不引起混淆的情况下，有时记log似然函数为似然函数

（3）相差常数倍也不影响似然函数取极大值的位置，因此似然函数中的常数项也可以抛弃

（4）在分类中log似然有时亦称为交叉熵(cross-entropy)

4．损失函数

损失函数 = 负log似然函数，即：

损失函数 = - log p( Ɵ|D)

5．求极大似然估计的一般步骤

（1）选择模型

（2）得到密度函数p(x)

（3）求似然函数L = Ʃ log.p(x)

（4）对似然函数求极值（求导），得到参数估计

三、常见分布的参数估计

1．高斯分布

假设X₁,…,X_N ~ N (μ, δ² )，参数为μ, δ²，则高斯分布：

的似然函数为：

其中，

样本均值：

样本方差：

　因为有：

高斯分布的似然函数化简为：

求最大值（求梯度，解方程）：

　　得到极值点（一阶导数为0）：

说明，使用样本的均值和方差作为高斯分布的参数估计，是极大似然的。

2．Bernoulli分布

Bernoulli分布的密度函数为：

其似然函数为：

其中，N₁为试验结果为1的次数，N₂为试验结果为0的次数，

求极大似然有：

即样本实验结果为1的比率，是Bernoulli分布的参数Ɵ的极大释然估计。

3．二项分布（Binomia）

Binomia分布的密度函数为：

其似然函数为：

其极大释然估计和Bernoulli分布一样：

求极大似然有：

即样本实验结果为1的比率，是 Binomia分布的参数Ɵ的极大释然估计。

4．多项分布（Multinoull）

Multinoull分布的密度函数为：

其似然函数为（其中N_K表示N次试验中出现k的次数）：

约束条件为:

采用拉格朗日乘子法求极值：

分别对λ和θ_k求偏导并令其等于0：

即为θ的最大释然参数估计。

四、机器学习模型的参数估计

1. 回归

（1）正态分布可用于回归系统噪声建模

（2）回归是监督学习问题，是输入到输出的映射的学习。

（3）回归问题的模型：

假设残差服从正态分布：

因此，回归问题的模型可以记为：

回归即预测其输出：

2．线性回归

线性回归：输入与输出呈线性关系。

相信回归的模型：

即：

其中W₀是截距，W为权重向量，ε为预测值和真值之间的残差。模型的参数为Ɵ =（W, δ²）

2.1 线性回归的极大似然估计

2.1.1 线性回归的似然函数

线性回归的似然函数为：

其中，RSS表示残差平方和(residual sum of squares)，即残差向量的L2模：

注：平均平方误差(MSE) = RSS/N

2.1.2 负log似然函数求参数估计

极大似然等价为极小负log似然损失(negative log likelihood，NLL)：

只取与w有关的项，得到：

因为有矩阵求导：

所以NLL求导有：

求解得到：

即为W的极大似然估计，把其代入NLL，则有：

求导有：

求解得：

以上便是线性回归参数Ɵ =（W, δ²）的极大似然估计。

2.1.3 计算机求解线性回归的解极大似然估计

1）当样本数目N较小时，可采用OLS结论，用矩阵QR分解分解得到优化解。

2）当样本数目N较大时，可采用随机梯度下降方法优化求解：

<1> 目标函数:

<2> 梯度下降法步骤：

i）给定初值w⁰

ii) 更新w，使得J(W)越来越小

iii) w的各维同时更新:

iv) 直到收敛到某个w值，使得J(W)最小

其中，α称为学习率，控制下降速度的大小。

3．Logistic回归

（1）Logistic回归是线性回归的扩展，用于分类任务（0, 1）

（2）分类目标为二值变量，因此服从Bernoulli分布：

P(y|θ) =

其中y为类别输入（0,1）。

假设输入为x的线性组合，即输入为x的函数 μ(x)，则Bernoulli分布的密度函数可以写为：

P(y|μ(x) ) =

其中：0≤μ(x)≤1

（3）在Logistic回归中，输入的x的函数(概率密度函数)为：

μ(x) = sigm(w^Tx)

其中sigm()为sigmoid函数，或logistic函数：

（4） logistic回归的概率密度函数为：

3.1 Logistic回归的极大似然估计

(1)负log似然函数求参数估计

Logistic回归的似然函数为：

其中，

μ_i = μ(x_i) = sigm(w^Tx)

y_i= 分类标签（0,1）

（1）梯度下降法求解

1）对似然函数进行求导

其中，

以上用到的矩阵求导：

2）得到梯度函数

3）使用梯度进行迭代

即：

其中，

（2）牛顿法求解

1）牛顿法也叫牛顿-拉夫逊（Newton-Raphson）方法，也叫二阶梯度下降法。

2）原理：使用函数f(x)的泰勒级数的前面几项来寻找方程f(x)=0的根

3）步骤：

i) 将导数g(w)在w^t处进行Taylor展开:

ii) 由上式得到：

iii) 迭代式为：

4. 朴素贝叶斯(Naive Bayes Classifier, NBC)

4.1定义

假设共有C个类别y∈(1,2,…,C)，每个类别有特征X=(x₁,x₂,…x_D), 则朴素贝叶斯为假设各维特征在给定类别标签的情况下条件独立：

概率密度函数：

其中，π、θ分别为y的先验分布和类条件分布的参数。

4.2朴素贝叶斯的极大似然估计

（1）似然函数为：

其中N_c为y=c的样本数。

（2）如果服从Bernoulli分布

则参数估计：

其中：

（3）如果服从多值分布

则参数估计：

其中：

（4）如果服从正泰分布

则参数估计：

（5）使用朴素贝叶斯进行预测

将给定数据条件D换成参数的MLE插入，得到：

例如Bernoulli分布的预测：

五、估计的评价

1. 估计量的评价标准

一个好的估计具有的性质：

（1）无偏性：估计量的期望等于真值的期望：

即估计的偏差(bias)：

等于0。

（2）相容性

若：

则该估计是相容(consistent)的。

（3）有效性

无偏估计中，方差较小的一个更有效（收敛速度更快）

2. 偏差-方差分解

点估计的性能通过均方误差(MSE, mean squared error)来评价：

可分解为：

其中，

估计的偏差为：

估计的变化程度(精度)为：

（1）如果bias = 0，称其为无偏估计

（2）为了使估计的MSE小，估计的偏差和方差到要小。

3. 监督学习模型的偏差-方差分解

在回归任务中，学习算法f的平方预测误差期望为：

（1）偏差：学习算法的预测的期望与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力。

（2）方差：同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动所造成的影响。

（3）噪声：在当前任务上任何学习算法所能达到的期望泛化误差的下界, 即刻画了学习问题本身的难度。

4. 估计的抽样分布

解决的问题：分布的参数真值未知，无法产生真实的模拟数据。

如何解决？：估计的抽样分布

估计的抽样分布：

假设从真实分布：

中进行S次抽样，每次的样本集的大小均为N, 得到数据集合

根据每次抽样得到的数据D(s)，都会得到一个估计：

当S -> ∞ 时，使用估计的参数代替真实的参数，称为估计的抽样分布。

4.1 参数 Bootstrap

Bootstrap（一种重采样技术），用代替，从分布中产生样本。

4.2 非参数Bootstrap

从原始数据中进行N次有放回地采样N个数据，用经验分布近似真正的分布

关注

4
点赞
踩
36

收藏

觉得还不错? 一键收藏
1
评论
机器学习之概率与统计（三）- 极大似然估计

目录一、参数估计二、极大释然估计1．似然函数2．极大似然估计（MLE）3．log似然函数4．损失函数5．求极大似然估计的一般步骤三、常见分布的参数估计1．高斯分布2．Bernoulli分布3．二项分布（Binomia）4．多项分布（Multinoull）四、机器学习模型的参数估计1.回归2．线性回归2.1线性回归的极大似然估计3．
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。