参数估计_点估计2（极大似然估计MLE）

最新推荐文章于 2023-05-03 10:43:09 发布

明朝百晓生

最新推荐文章于 2023-05-03 10:43:09 发布

阅读量752

点赞数

分类专栏：人工智能

4AM_明朝百晓生

本文链接：https://blog.csdn.net/chengxf2/article/details/115463988

版权

人工智能专栏收录该内容

102 篇文章 3 订阅

订阅专栏

前言：

这个算法在贝叶斯以及HMM,EMM算法里面应用的比较广泛。

目的: 利用观测到的样本，估计出未知参数

1：采用不同的样本采样方法 ,for this you can check REF DOC 周志华
2: 可以增加训练的轮数，符合辛钦大数定理
3：参数估计参考矩估计|极大似然估计，本质上是一阶原点矩，那就要找出参数震荡小的时候参数
这个参考郑捷的机器学习

4: 对参数具体进行研究

通过热力图研究其维度之间的相关系数，如果相关性特别强的维度之间，权重系数应该是差不多的。

1：算法的基本步骤

2：原理

3：应用

4： Code（交叉熵）

一算法原理

1.1 写出联合概率密度|分布律

1.2 极大似然函数：

$L(\theta)=\prod_{i=1}^{n} p(x_i,\theta)$

似然估计 $L(\theta(x_1,x_2,...x_n))=max_{\theta } L(\theta)$

1.3 对对数似然函数求导

$\frac{\partial lnL(\theta)}{\partial \theta_i}|_{\theta=\hat{\theta}}=0$

注意：

1 ：由于该函数二阶导数不一定小于0，所以

求导出来的不一定是全局极大值点，可能是局部极值点，

要回带到似然函数重新计算。

2：当 $L(\theta)$ 关于未知参数 $\theta_i$ 是单调递增或递减函数，

$\theta_i$ 极大似然估计为 $\theta_i$ 的最大或者最小值（与样本有关），

例如均匀分布

二原理

设离散型随机变量分布律为 $X \sim p(x;\theta)$ , $X_1,X_2,...,X_n$ 为样本, $x_1,x_2,...x_n$ 为观测值

$\begin{Bmatrix} X_1=x_1, & X_2=x_2, & ..., & X_n=x_n \end{Bmatrix}$ 发生的概率为

$L(\theta)=\prod_{i=1}^{n} p(x_i,\theta)$ （该函数称为似然函数）

$L(\hat{\theta}(x_1,x_2,...x_n))=max_{\theta \in \hat{\theta}} L(\theta)$

对于连续型变量

$L(\theta)=\prod P(x_i-\Delta x_i<x_i<x_i+\Delta x_i)=\prod f(x_i,\theta)\Delta x_i=\prod f(x_i,\theta)$

其中 $\Delta x_i$ 在参数求解过程中,对极大值没有影响,所以可以去掉

三例子：

例1：已知随机变量 $X \sim N(u,\sigma^2)$ ,求极大似然估计 $u,\sigma^2$

解：

1：写出概率密度函数

$f=\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{-(x_i-u)^2}{2\sigma^2}}$

2: 写出似然函数

$L=\prod f =(2\pi)^{-n/2}a^{-n/2}e^{\sum\frac{-(x_i-u)^2}{2a}}$

其中 $a=\sigma^2$

3: 对对数似然函数求导

$lnL=-\frac{n}{2} ln(2\pi)-\frac{n}{2}lna -\frac{\sum(x_i-u)^2}{2a}$

3.1 对u 求导：

$\sum (x_i-\hat{u})=0$
$n\hat{u}-\sum x_i=0$

$\hat{u}=\frac{\sum x_i}{n}=\bar{x}$

3.2 对方差求导

$\frac{-n}{2a}+\frac{\sum(x_i-u)^2}{2a^2}=0$
$\hat{a}=\frac{\sum(x_i-u)^2}{n}=\frac{(x_i-\bar{x})^2}{n}$

则 $\hat{\sigma^2}=\hat{a}$ ，为中心矩

例2 ：已知样本采样 $X_1,X_2,....X_n \sim B(1,P)$ ,求极大似然估计

解：

2.1 写出概率密度函数

$f=p^{x_i}(1-p)^{1-x_i},x_i\in[0,1]$

2.2 写出似然公式

$L=\prod_i p^{x_i}(1-p)^{1-x_i}=p^{\sum x_i}(1-p)^{n-\sum x_i}$

求对数似然函数

$lnL =\sum x_i lnp+(n-\sum x_i)ln(1-p)$

2.3 对p求导数

$p=\frac{\sum x_i}{n}=\bar{X}$

四机器学习中交叉熵应用例子

https://zhuanlan.zhihu.com/p/63731947

输入：

$x_1,x_2,x_3$ 为某个样本对应维度的特征值

输出：

$p_i=\frac{1}{1+e^{-a_i}}$

损失函数1：

$loss = \sum_k y_klog\frac{1}{p_k}$ 其中 $y_k$ 为标签值， $p_k$ 为预测值。

参数调整过程：

$\frac{\partial L}{\partial w11}=-y_1\frac{1}{p_1}*p_1(1-p_1)*x_1$

$=-y_1(1-p_1)*x_1$

可以看出只有标签值为1，才会调整

损失函数2（二阶中心矩）

$loss = \frac{1}{2}\sum(y_i-p_i)^2$

$\frac{\partial L}{\partial w11}=(y_1-p_1)*p_1*(1-p_1)*x_1$

$\Delta W_{11}=\left\{\begin{matrix} A^2(1-A)x_1,y_1=1\\ -A^2(1-A)x_2,y_1=0 \end{matrix}\right.$

其中： $A=|y_1-p_1|$

这个里面看出来，

import numpy as np

'''
交叉熵,最好接近0， Log1 ==0
'''
def cross_entropy(Y,P):
    
    Y = np.float_(Y)
    P = np.float_(P)
    
    loss =  Y*np.log(P)+(1-Y)*np.log(1-P)
    
    entropy = -np.sum(loss)
    
    print("\n 交叉熵 ",entropy)
    
Y=[1,0,1,1] 
P=[0.4,0.6,0.1,0.5]
P2 =[0.9,0.1,0.88,0.99]
cross_entropy(Y,P)
cross_entropy(Y,P2)

明朝百晓生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
参数估计_点估计2（极大似然估计MLE）

前言：这个算法在贝叶斯以及HMM,EMM算法里面应用的比较广泛。目的: 利用观测到的样本，估计出未知参数目录： 1：算法的基本步骤 2：原理 3：例子 4： Code一算法原理 1.1 写出概率密度|分布律 1.2 极大似然函数：似然估计 1.3 对对数似然函数求...
复制链接

扫一扫