这里写自定义目录标题
概念
最大似然估计 Maximum likelihood estimation, 是一个在已知的数据集 x x x情况下,根据现有参数去预测数据分布 θ \theta θ的问题,与机器学习关系密切,同时需要很多概率知识。
什么是参数
在机器学习中,我们经常会需要用一个模型去描述观察到的数据,比如用线性模型去预测公司在广告支出和回报之间的关系,每个模型都有自己的参数,用来定义这个模型看起来是怎样的
对于线性模型来说,可以假设 y = m x + c y = mx + c y=mx+c, x是广告支出, y是回报,m和c是参数
直觉理解的MLE
MLE是一种根据已经有的数据预估可能的模型的方式,首先需要选一个合适的模型,看到下面这张图,表示一个老师批改一份作业的时间,你觉得用什么概率模型来表示比较合适?(指数分布,线性分布,高斯分布?)
通常模型的选择来自经验,如果比较熟悉各个分布会觉得这里用高斯比较合适,因为点都集中在一个特定点周围,而且可以用均值和方差表示,但我们这里不讨论先验概率选择的问题,先假定是高斯,下面这张图片显示在不同的均值和方差下,高斯的不同形态,对高斯积分后面积为1
在这里,真实分布为蓝色,高斯参数为 f 1 ∼ N ( 10 , 2.25 ) f_1 \sim \mathcal{N}(10,2.25) f1∼N(10,2.25)
计算MLE
在这里我们假设所有的点都是相互独立的,这样计算概率分布比较方便,不需要考虑条件概率。这样一个总的事件发生的概率等于所有点的概率的乘积。求MLE就是求这个函数中最大分布的值
对于一个概率分布中单独的数据点 x x x来说,它被这个高斯分布生成的概率为
p ( x ; μ , σ ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 p(x;\mu,\sigma) = \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(x-\mu)^2}{2\sigma^2}} p(x;μ,σ)=σ12πe−2σ2(x−μ)2
式子中的分号说明x是在知道 μ \mu μ和 σ \sigma σ之后出现的,也就是x为未知变量,不会和条件概率混淆。
在我们的例子中,计算出三个点的值
p ( 9 , 9.5 , 11 ; μ