机器学习（一）：极大似然估计

最新推荐文章于 2022-06-19 18:34:15 发布

芙兰泣露

最新推荐文章于 2022-06-19 18:34:15 发布

阅读量416

点赞数

分类专栏：机器学习与算法文章标签：机器学习

本文链接：https://blog.csdn.net/u012882134/article/details/78147294

版权

机器学习与算法专栏收录该内容

16 篇文章 3 订阅

订阅专栏

从这一篇开始，打算系统的回顾一下机器学习的内容，以应对面试。
由于两次面试都问到了逻辑回归，于是打算从逻辑回归开始。
作为逻辑回归的基础，先从极大似然估计开始吧。

点估计的方法

两种常用的方法：矩法，极大似然估计发。

矩法

总体：X
样本观测值： $（X_1, ...，X_n）$
样本原点矩： $A_j = \frac{1}{n} \sum_1^nX_i^j$

因此，可以使用样本的原点矩对于参数进行预估

极大似然估计

极大似然估计建立在这样一种直观想法的基础上：假定一个随机试验有若干个可能的结果 $（X_1, ...，X_n）$ 。如果在一次试验后出现了结果 $X_i$ ，那么一般认为实验条件对“出现 $X_i$ 有利”，即这个试验中“出现 $X_i$ ”的概率（站在实验前的立场上考察）最大。

先以离散分布为例：
总体X服从某类离散型分布，它的概率函数为 $f(x;\theta), \theta \in \Theta$ ， $（X_1, ...，X_n）$ 是取自这个总体的一个样本，再一次试验中，获得样本的观测值 $（x_1, ...，x_n）$ 的概率为：

$P (X 1 = x 1, . . ., X n = x n) = \prod 1 n P (X i = x i) = \prod 1 n f (x i; θ)$ $P(X_1=x_1, ... , X_n=x_n)=\prod_1^nP(X_i=x_i)= \prod_1^nf(x_i;\theta)$

$\theta$ 的取值毫无疑问会影响 $f(x_i;\theta)$ 的大小。因此，可以将上述概率看做 $\theta$ 的函数，并称之为“似然函数”，记做 $L(\theta;x_1,...,x_n)$ ，适当的取 $\theta$ 使得 $L(\theta)$ 的值达到最大，即使得出现 $\{X_1=x_1, ... , X_n=x_n\}$ 的概率最大。