极大似然估计与机器学习

1极大似然估计

极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,属于概率统计学课里的一种方法。
极大似然估计的目的是解决模型已定,参数未知的问题,和贝叶斯公式由果推因的目的有很多相似之处。
例如,已知人的身高服从正态分布,即概率密度函数 f f f已知。此时从人群中抽取了100个人,获取了他们的身高。极大似然估计做的事情就是利用这两个条件(身高服从正态分布,100个人的身高),来估计人的身高的正态分布的两个参数 μ , σ \mu ,\sigma μ,σ
极大似然估计基于的原理就是:在所有可能的结果中,获得这些样本的可能性是最大的。或者说,概率分布已知,我在里面抽取样本有无数种可能,可是我为什么就抽取了这些样本,而不是别的样本?说明这些样本出现的概率是最大的。
我们假设样本之间是独立的,那么同时抽到 n n n个样本的概率用公式表示为:

p ( x 1 , x 2 , . . . , x n ∣ θ ) = p ( x 1 ∣ θ ) p ( x 2 ∣ θ ) . . . p ( x n ∣ θ ) p(x_1,x_2,...,x_n|\theta)=p(x_1|\theta)p(x_2|\theta)...p(x_n|\theta) p(x1,x2,...,xnθ)=p(x1θ)p(x2θ)...p(xnθ)
里面的 p ( x i ∣ θ ) p(x_i|\theta) p(xiθ)可以利用之前已知的概率分布函数进行计算。
可以发现, p ( x 1 , x 2 , . . . , x n ∣ θ ) p(x_1,x_2,...,x_n|\theta) p(x1,x2,...,xnθ)是一个关于参数 θ \theta θ的函数,为了后期更方便求导,对于 p ( x 1 , x 2 , . . . , x n ∣ θ ) p(x_1,x_2,...,x_n|\theta) p(x1,x2,...,xnθ)取对数,并记为 L ( θ ) L(\theta) L(θ):
L ( θ ) = l o g ( p ( x 1 , x 2 , . . . , x n ∣ θ ) ) = l o g ( p ( x 1 ∣ θ ) ) + l o g ( p ( x 2 ∣ θ ) ) + . . . + l o g ( p ( x n ∣ θ ) ) L(\theta)=log(p(x_1,x_2,...,x_n|\theta))=log(p(x_1|\theta))+log(p(x_2|\theta))+...+log(p(x_n|\theta)) L(θ)=log(p(x1,x2,...,xnθ))=log(p(x1θ))+log(p(x2θ))+...+log(p(xnθ))
针对参数 θ \theta θ L ( θ ) L(\theta) L(θ)求偏导,并让其等于0,通过解方程的方法即得到了参数 θ \theta θ的最优解。

2 极大似然估计与机器学习

按照一个一般的机器学习分类,可以分为如下图所示的几个部分(图片来自网络)。
在这里插入图片描述
但是无论是哪种方法,仿佛都是在寻找一个最优的模型,这里面的模型主要指的就是这些特定的算法下的特定的参数的组合。因为在面对一个机器学习问题时,很少有人会独创一套新的算法,基本上就是先在所有算法中找一个最适合的算法,再通过人工或者自动参数更新的方式找到一组最优的参数,这个算法+最优参数的组合就叫模型。
可以发现,机器学习本身也是一种由数据(有标签或无标签)推测模型的过程,与极大似然估计十分类似。粗糙点说,极大似然的概率密度函数就像是机器学习的算法,要用偏导求得的参数就相当于机器学习里的参数(不是超参数,虽然有些算法只有超参数,这是一个大概的理解)。
因此,无论是极大似然还是机器学习,都是想根据给定的数据找到一个最合适的模型,并且都要求数据本身独立同分布。这个数据在机器学习里是广义的,包括有标签数据、无标签数据,甚至是强化学习的环境模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值