机器学习 | 分类算法原理——似然函数

Hi,大家好,我是半亩花海。接着上次的逻辑回归继续更新《白话机器学习的数学》这本书的学习笔记,在此分享似然函数这一分类算法原理。本章的分类算法原理基于《基于图像大小进行分类》项目,欢迎大家交流学习!

目录

一、似然函数概述

二、案例分析

1. 设置问题

2. 定义模型

3. 似然函数


一、似然函数概述

数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的 似然性 。 似然函数在 推断统计学 (Statistical inference)中扮演重要角色,如在 最大似然估计 和费雪信息之中的应用等等。

“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。


二、案例分析

1. 设置问题

现在,我们就一起来先求参数的更新表达式吧,但是逻辑回归的目标函数与之前的不一样。

一开始我们把 \boldsymbol{x} 为横向的概率 P(y = 1|x) 定义为 f_{\boldsymbol{\theta}}(\boldsymbol{x}) 了。基于这一点,训练数据的标签 yf_{\boldsymbol{\theta}}(\boldsymbol{x}) 是什么样的关系会比较理想呢?既然 f_{\boldsymbol{\theta}}(\boldsymbol{x}) 是 \boldsymbol{x}横向时的概率,那么在 y = 1f_{\boldsymbol{\theta}}(\boldsymbol{x})=1y = 0f_{\boldsymbol{\theta}}(\boldsymbol{x})=0,这样的关系最为理想。

2. 定义模型

我们把这句话换成如下说法。

  • y = 1 的时候,我们希望概率 P(y = 1|x) (图像为横向的概率)是最大
  • y = 0 的时候,我们希望概率 P(y = 0|x) (图像为纵向的概率)是最大

这适用于全部的训练数据。对于一开始列举的那 6 个训练数据,我们期待的最大概率是这样的:

3. 似然函数

假定所有的训练数据都是互不影响、独立发生的,这种情况下整体的概率就可以用下面的联合概率来表示:

L(\boldsymbol{\theta})=P\left(y^{(1)}=0 \mid \boldsymbol{x}^{(1)}\right) P\left(y^{(2)}=0 \mid \boldsymbol{x}^{(2)}\right) \cdots P\left(y^{(6)}=1 \mid \boldsymbol{x}^{(6)}\right)

联合概率的表达式是可以一般化的,写法如下:

L(\boldsymbol{\theta})=\prod_{i=1}^n P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right)^{y^{(i)}} P\left(y^{(i)}=0 \mid \boldsymbol{x}^{(i)}\right)^{1-y^{(i)}}

虽然看起来有点乱,但就像之前说的那样, 只要把每一个组成部分都理解了就不会那么难了。我们可以分别考虑 y^{(i)}=1 或 y^{(i)}=0 时的 P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right)^{y^{(i)}} P\left(y^{(i)}=\right.\left.0 \mid \boldsymbol{x}^{(i)}\right)^{1-y^{(i)}}P 右上角的 y^{(i)}1-y^{(i)} 表示指数i 表示第 i 次迭代,表示次数

首先向指数 y^{(i)} 代入 1。

\begin{aligned} & P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right)^1 P\left(y^{(i)}=0 \mid \boldsymbol{x}^{(i)}\right)^{1-1} \\ & =P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right)^1 P\left(y^{(i)}=0 \mid \boldsymbol{x}^{(i)}\right)^0 \\ & =P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right) \end{aligned}

这样就只剩 y^{(i)}=1 的概率。同理,y^{(i)}=0 的时候也一样。

\begin{aligned} & P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right)^0 P\left(y^{(i)}=0 \mid \boldsymbol{x}^{(i)}\right)^{1-0} \\ & =P\left(y^{(i)}=1 \mid \boldsymbol{x}^{(i)}\right)^0 P\left(y^{(i)}=0 \mid \boldsymbol{x}^{(i)}\right)^1 \\ & =P\left(y^{(i)}=0 \mid \boldsymbol{x}^{(i)}\right) \end{aligned}

这个表达式利用了任何数字的 0 次方都是 1 的特性。比起区分各种情况的写法,还是汇总到一个表达式的写法更简单。现在我们总算知道它的目标函数。接下来考虑一下使这个目标函数最大化的参数 \theta 吧。(ps:回归的时候处理的是误差,所以要最小化,而现在考虑的是联合概率,我们希望概率尽可能大,所以要最大化

这里的目标函数 L(\theta) 也被称为似然。函数的名字 L 取自似然的英文单词 Likelihood 的首字母,它的意思是最近似的。我们可以认为似然函数 L(\theta) 中,使其值最大的参数 \theta 能够最近似地说明训练数据。

  • 8
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

半亩花海

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值