李宏毅机器学习（4）

最新推荐文章于 2025-07-16 22:35:31 发布

Baigker

最新推荐文章于 2025-07-16 22:35:31 发布

阅读量154

点赞数

CC 4.0 BY-SA版权

分类专栏：李宏毅机器学习课程笔记文章标签：机器学习

本文链接：https://blog.csdn.net/Baigker/article/details/118731919

李宏毅机器学习课程笔记专栏收录该内容

29 篇文章

订阅专栏

这篇博客探讨了如何使用概率模型解决分类问题，包括贝叶斯公式、正态分布和最大似然估计。通过训练数据求得平均值μ和协方差矩阵Σ，然后利用这些参数进行分类。当正态分布不足以描述数据时，可以采用朴素贝叶斯分类器。文章还讨论了简化模型，如不同类别共享协方差矩阵，以及sigmoid函数在分类边界上的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Classification

简介

定义：输入一个 $x$ ，输出 $x$ 属于哪一种类

$\Rightarrow Function \Rightarrow Class\ n$

应用场景：

金融：输入：存款、收入、职位、年龄……输出：贷款 $o r$ 拒绝。
医疗诊断：输入：症状、年龄、性别……输出：得了什么病。
手写识别：输入：图像。输出：是哪个字
人脸识别：输入：人脸图像。输出：是哪个人。
宝可梦识别：输入：物攻、特攻、生命、物防、特防……输出：这是哪个宝可梦。

不能用Regression做Classification，因为两者评价方法不一样。
在这里插入图片描述

一种解法

在这里插入图片描述
用类似贝叶斯公式的方法测算概率。
对training data求正态分布，然后用来预测。
$fμ,Σ=1(2π)D/2⋅1∣Σ∣1/2e−12(x−μ)TΣ−1(x−μ)f_{μ,Σ}=\frac{1}{(2π)^{D/2}}·\frac{1}{|Σ|^{1/2}}e^{-\frac{1}{2}(x-μ)^TΣ^{-1}(x-μ)}$
如何求 $μ$ 和 $Σ$ ？
$L(μ,Σ)=f_{μ,Σ}(x^{1})f_{μ,Σ}(x^{2})...f_{μ,Σ}(x^{m})$
要求 $μ^*,Σ^*)$ 使 $L (μ, Σ)$ 最大，即：

$μ^*,Σ^*)=arg\ max_{μ,Σ}L(μ,Σ)$
$μ∗=179∑n=179xn，Σ∗=179∑n=179(xn−μ∗)(xn−μ∗)Tμ^*=\frac{1}{79}\sum_{n=1}^{79}{x_n}，Σ^*=\frac{1}{79}\sum_{n=1}{79}{(x_n-μ^*)(x_n-μ^*)^T}$

然后就可以进行Classification：

$class1P(C_1|x)=\frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)},if\ P(C_1|x)>0.5,then\ x\ belongs\ to\ class1$

改进

不同的Class可以共用一组covariance(Σ)。原因：如果Σ太多，会导致参数太多，容易出现过拟合的情况。

找到 $μ_1,μ_2,Σ$ 来最大化 $L(μ_1,μ_2,Σ)$
$L(μ_1,μ_2,Σ)=f_{μ_1,Σ}(x_1)f_{μ_1,Σ}(x_2)...f_{μ_1,Σ}(x_{79})f_{μ_2,Σ}(x_{80})f_{μ_2,Σ}(x_{81})...f_{μ_2,Σ}(x_{140})$
$μ_1,μ_2$ 与之前一样， $Σ=79140Σ1+61140Σ2Σ=\frac{79}{140}Σ_1+\frac{61}{140}Σ_2$

其他情况

很多情况下使用正态分布就可以了，但有时正态分布并不能满足需求，如：

$B i n a r i y f e a t u r e$ （二元特征），比如判断一个宝可梦是不是神兽。

如果假设所有dimensions都是独立的，这个方法叫做Naive Bayes Classifier。

Posterior Probability

$P(C1∣x)=P(x∣C1)P(C1)P(x∣C1)P(C1)+P(x∣C2)P(C2)=11+P(x∣C2)P(C2)P(x∣C1)P(C1)=σ(z)P(C_1|x)=\frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)}=\frac{1}{1+\frac{P(x|C_2)P(C_2)}{P(x|C_1)P(C_1)}}=σ(z)$ 称此函数为 $functionsigmoid\ function$
设 $z=lnP(x∣C1)P(C1)P(x∣C2)P(C2)z=ln\frac{P(x|C_1)P(C_1)}{P(x|C_2)P(C_2)}$ ， $P(C1∣x)=11+e−2P(C_1|x)=\frac{1}{1+e^{-2}}$
$z=lnP(x∣C1)P(x∣C2)+lnP(C1)P(C2)=lnP(x∣C1)P(x∣C2)+lnN1N2z=ln\frac{P(x|C_1)}{P(x|C_2)}+ln\frac{P(C_1)}{P(C_2)}=ln\frac{P(x|C_1)}{P(x|C_2)}+ln\frac{N_1}{N_2}$
$P(x∣C1)=1(2π)D/2⋅1∣Σ1∣1/2e−12(x−μ1)TΣ1−1(x−μ1)P(x|C_1)=\frac{1}{(2π)^{D/2}}·\frac{1}{|Σ_1|^{1/2}}e^{-\frac{1}{2}(x-μ_1)^TΣ_1^{-1}(x-μ_1)}$
$P(x∣C2)=1(2π)D/2⋅1∣Σ2∣1/2e−12(x−μ2)TΣ2−1(x−μ2)P(x|C_2)=\frac{1}{(2π)^{D/2}}·\frac{1}{|Σ_2|^{1/2}}e^{-\frac{1}{2}(x-μ_2)^TΣ_2^{-1}(x-μ_2)}$
相除得到 $ln∣Σ1∣1/2∣Σ2∣1/2e−12(x−μ1)TΣ1−1(x−μ1)+12(x−μ2)TΣ2−1(x−μ2)ln\frac{|Σ_1|^{1/2}}{|Σ_2|^{1/2}}e^{-\frac{1}{2}(x-μ_1)^TΣ_1^{-1}(x-μ_1)+\frac{1}{2}(x-μ_2)^TΣ_2^{-1}(x-μ_2)}$
但一般情况下， $Σ_1=Σ_2=Σ$ 。
所以 $z=(μ1−μ2)TΣ−1x−12μ1TΣ1−1μ1+12μ2TΣ2−1μ2+lnN1N2=wTx+bz=(μ_1-μ_2)^TΣ^{-1}x-\frac{1}{2}μ_1^TΣ_1^{-1}μ_1+\frac{1}{2}μ_2^TΣ_2^{-1}μ_2+ln\frac{N_1}{N_2}=w^Tx+b$
$P(C_1|x)=σ(w·x+b)$