机器学习入门:第三章 逻辑(Logistic)回归 极大似然估计(2)

回头过来看,可能会觉得最小二乘法跟我们讨论中的芒果酸甜问题,并不是一回事。但从另外一种概括的角度来讲:通过一种模型,预测一种输出就能够分类。

在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。这时,输入变量X可以是离散的,也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier)。分类器对新的输入进行输出的预测(prediction),称为分类(classification)。

用同样的思想,继续一个简单的故事:
某位同学与一位猎人一起出去打猎,一只兔子从前方窜过。只听见一声枪响,野兔应声倒下,如果要你来推测,这一发命中的子弹是谁大的?你会怎么想呢过?正常的情况下,猎人的枪法肯定比你的同学的枪法好,也就是说猎人的命中率比你的同学高。而一枪就打死兔子,命中率是100%的,这么高的命中率,应该是谁打中的呢?显然,猎人开的枪比较符合我们观察的想象了吧。

这就是我们要讲的,极大似然法。

如果试验n次,我们得到n个样本,极大似然估计是要是所求的概率,最大限制的符合我们现在所发生的。

这里我们这样定义似然函数:
假设{y1,…,yn}为独立同分布,则样本数据的联合密度函数为f(y1,θ)f(y2,θ)…f(yn,θ),定义“似然函数”为,

L ( θ ; y 1 , . . . , y n ) = ∏ f ( y i ; θ ) L(\theta;y_1,...,y_n) = \prod f(y_i;\theta) L(θ;y1,...,yn)=f(yi;θ)

把似然函数取对数,将乘机形式转化为求和形式,

L ( θ ; y 1 , . . . , y n ) = ∑ l n f ( y i ; θ ) L(\theta;y_1,...,y_n) = \sum ln f(y_i;\theta) L(θ;y1,...,yn)=lnf(yi;θ)

为最大似然估计法。

从最大似然估计的思想来看和最小二乘法是有些类似的,使模型在观察到的数据中拥有最小的误差。

为了较好的说明,举一个很简单的例子:两点分布的情况,也是0-1分布。
设某工序生产的产品合格率为p,抽n个产品作检验,发现有T个合格,试求p的极大似然估计值。
在这里我们做了n次的试验,我们所求的概率p要符合我们试验的结果,也就是通过极大似然函数来求解。
似然函数为:

L ( p ) = ∏ p x i ( 1 − p ) 1 − x i L(p) = \prod p^{x_i}(1-p)^{1-x_i} L(p)=pxi(1p)1xi

把它简化一下,它的意思就更加明显了,如果这一次抽到的是不合格的产品,那么xi就为1, p x i ( 1 − p ) 1 − x i p^{x_i}(1-p)^{1-x_i} pxi(1p)1xi也就是不合格率,极大似然把所有的结果相乘,也就是这次试验的总可能性。这里刚好可以知道把这次所有抽到合格的总次数为T,即 ∑ x i = T \sum{x_i}=T xi=T
使用极大似然估计可以得出:

L ( x 1 , x 2 , . . . , x n ) = ∏ p x i ( 1 − p ) 1 − x i = p ∑ x i ( 1 − p ) n − ∑ x i L(x_1,x_2,...,x_n) = \prod p^{x_i}(1-p)^{1-x_i} = p^{\sum x_i}(1-p)^{n-\sum x_i} L(x1,x2,...,xn)=pxi(1p)1xi=pxi(1p)nxi

取对数:

l n L = ( ∑ x i l n p + ( n − ∑ x i ) l n ( 1 − p ) ) lnL=(\sum x_i lnp + (n-\sum x_i)ln(1-p)) lnL=(xilnp+(nxi)ln(1p))

为了得到最大值,求导数:

d l n L d p = ∑ x i p − ( n − ∑ x i ) 1 1 − p \frac{dlnL}{dp}=\frac{\sum x_i}{p} - (n-\sum x_i)\frac{1}{1-p} dpdlnL=pxi(nxi)1p1

( 1 − p ) ∑ x i = n p − p ∑ x i (1-p)\sum x_i = np - p\sum x_i (1p)xi=nppxi

∑ x i = n p \sum x_i = np xi=np

最后可以求得:

p = T n p=\frac{T}{n} p=nT

最大似然函数的思想也就是想使我们求得的概率符合我们所观察的。而最大似然法看起来,好像只是为了求得某个概率,但恰恰是我们Logistic回归中用到的一种方法。

渐渐的进入到我们的主题Logistic回归。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

go2coding

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值