李宏毅ML笔记4: 分类-概率生成

最新推荐文章于 2023-03-13 15:48:51 发布

lagoon_lala

最新推荐文章于 2023-03-13 15:48:51 发布

阅读量626

点赞数 3

分类专栏：人工智能文章标签：机器学习分类

本文链接：https://blog.csdn.net/lagoon_lala/article/details/116674811

版权

人工智能专栏收录该内容

90 篇文章 52 订阅

订阅专栏

Naive Bayes Classifier(朴素贝叶斯分类法)

后验概率分析

推导z(对数几率)的形态

分类的输出: 属于哪一个类

例子: 信用评分(通过个人信息判断是否接受借贷申请), 医疗诊断, 手写辨识(中文至少8000字符)

(哈哈老师的小名叫大金)

应用例子-宝可梦

(你要说这个我可就不困了啊!)

分类问题是找一个function，它的input是一只宝可梦，它的输出是这个宝可梦属于哪一种type属性(18种)

宝可梦的数据来源

Data: https://www.kaggle.com/abcsds/pokemon

Useful posts:

https://www.kaggle.com/nishantbhadauria/d/abcsds/pokemon/pokemon-speed-attack-hp-defense-analysis-by-type

https://www.kaggle.com/nikos90/d/abcsds/pokemon/mastering-pokebars/discussion

https://www.kaggle.com/ndrewgele/d/abcsds/pokemon/visualizing-pok-mon-stats-with-seaborn/discussion

数值化

怎么把某一只宝可梦当做function的input: 数值化

找到特性

Total: 整体实力(所有状态值之和), HP生命值, Attack攻击, Defense防御, SP Atk特攻, SP Def特防, Speed速度(相遇时谁先攻击)

用vector来描述它, vector由以上七种特性的数值所组成. 如皮卡丘(320, 35, 55, 40, 50, 50, 90)

是否能把这7个数字输入function, function输出宝可梦种类.

这件事情的作用: 决斗时因为属性相克关系, 若出现图鉴上没有的宝可梦, 就可以通过预测属性找到办法对付他.

如何完成分类任务

收集数据, 分成训练集与测试集. 再考虑如何解分类问题.

若把分类当作回归硬解

以二分类为例，把种类当成数值, (0为分界)输出接近1则取类1, 输出接近-1则取类2.

设模型为: y = b + w_1*x_1 + w_2*x_2

那么分界线即: b + w_1*x_1 + w_2*x_2

按照Regression思想，希望对于蓝色的这些属于class 1的宝可梦, 输出越接近1越好；

红色的属于class 2的宝可梦，输出越接近-1越好.

那么对于分类1中远大于1(太正确)的结果对regression来说是错的, 但对于分类真实结果来说是对的. 这会导致分界线向右下偏移, 以减小error使远离线的那一坨更接近1. (惩罚太正确)

存在问题:

1. Regression的output是连续性质的数值, Regression的function使大部分样本点的output都集中在某几个点附近. 因此，Regression对model好坏的定义方式对classification来说是不适用的.

2.如果是多元分类问题，class 1- target 1，class 2-target2，class 3-target 3存在问题: 即假设了class 1接近class 2, class 2接近class 3, class 1远离class 3.

主要还是loss function的问题哦

理想方法

输出的不再是实数, 而是离散值(discrete)

Function(Model):

function f(x)里内建一个g(x)，如果g(x)>0，那f(x)的输出就是class 1，如果g(x)<0，那f(x)的输出就是class 2，这个方法保证了function的output都是离散的表示class的数值.

$$ \begin{aligned}& g\left( x \right) > 0&Output= ~class~1\\ & else&Output=class~2\end{aligned} $$

Loss function:

这个model在所有的training data上predict预测错误的次数

$$ L\left( f \right) = {\sum_{n}{\delta\left( {f\left( x^{n} \right) \neq {\hat{y}}^{n}} \right)}} $$

其中, 当f=y hat, δ值为0, 否则为1.

这个式子无法微分, 无法用gradient descent的方法去解的，当然有Perceptron、SVM这些方法可以用，但这里先用另外一个方法来解决这个问题-几率观点(也同样包含机器学习3步骤).

模型求解方法-生成模型

贝叶斯-全概率公式

已知两个盒子中球数( 盒1 蓝球占4/5, 绿占1/5; 盒2蓝球占2/5, 绿占3/5), 从盒1抽的几率是2/3, 从盒2抽的几率是1/3, 拿出发现是蓝球, 分别求从盒1盒2拿的概率.

即给定一个蓝球, 求它从B1里面出来的概率:

$$ P\left( B1~ \middle| ~Blue \right) = \frac{P\left( {\text{Blue}\left| B_{1} \right.} \right)P\left( B_{1} \right)}{P\left( {\text{Blue}\left| B_{1} \right.} \right)P\left( B_{1} \right) + P\left( {\text{Blue}\left| B_{2} \right.} \right)P\left( B_{2} \right)} $$

将问题抽象为二分类, 所需已知条件为: 从C1抽的几率, 从C2抽的几率, 从C1中能抽出x的的几率, 从C2中能抽出x的的几率.

$$ P\left( C_{1} \middle| x \right) = \frac{P\left( x \middle| C_{1} \right)P\left( C_{1} \right)}{P\left( x \middle| C_{1} \right)P\left( C_{1} \right) + P\left( x \middle| C_{2} \right)P\left( C_{2} \right)} $$

知道这4个值就知道x从C1抽的概率, 就知道哪一类的几率最大, 那这个问题就得以解决, . 所以需要利用训练集, 把这四个值测出来.

这一整套想法为Generative model(生成模型): 因为这个model可以生成(generate)x. 即计算x出现的几率, 从而得到x的分布(distribution), 用这个分布来产生(sample)x示例(如果你可以计算出每一个x出现的概率，就可以用这个distribution分布来生成x、sample x出来)

相关知识: 全概率-贝叶斯公式

参考: https://www.bilibili.com/video/BV1a4411B7B4 已知, 能成功做A1的概率P(A1), A1做成后能成功做B的概率P(B|A1), 根据概率乘法, 从A这条路径到B的概率P(A1) P(B|A1).

这两个公式基于同一个模型. 全概率为所有路径相加, 贝叶斯已知结果B求某条路径概率(这一条路径/其他所有概率之和)

这一坨一坨都是路径的概率

全概率求的是B: 1+2+…+n

贝叶斯求的是A: 1/(1+2+…+n)

计算四个所需值

先验概率prior probability

P(C1)和P(C2)为Prior

考虑二元分类, 假设C1为水系, C2为普通系, 编号小于400的data用来Training，编号大于400的data用来testing.

在Training data里面，有79只水系宝可梦(杰尼龟, 可达鸭, 蚊香蝌蚪…)，61只一般系宝可梦.

抽样从类1取出一只宝可梦的几率为: P(C1) = 79 / (79 + 61) =0.56

抽样从类2取出一只宝可梦的几率为: P(C2) = 61 / (79 + 61) =0.44

类条件概率(class-conditional/dependent probability)

假如抽到的是水系, 求他是原盖海龟的概率P(x|C_1) ( 海龟要用其特征值描述哦 )

以防御力Defense/特防SP Defence为例, 把水系宝可梦的特征值画出来:

假设训练集是从高斯分布中抽样出来的, 给出一个已知特征值的新点(海龟), 不存在训练集中. 求水系抽到原盖海龟的概率?

高斯分布

把高斯(高维正态)分布看成一个函数, 其输入为一个向量x, 输出的是某宝可梦在该分布的概率密度 (与被抽样的概率成正比):

$$ f_{\mu,\Sigma}\left( x \right) = \frac{1}{\left( {2\pi} \right)^{D/2}}\frac{1}{\left| \Sigma \right|^{1/2}}exp\left\{ {- \frac{1}{2}\left\{ {x - \mu} \right\}^{T}\Sigma^{- 1}\left\{ {x - \mu} \right\}} \right\} $$

这个概率由两个东西决定: 均值μ(期望向量), 方差Σ(covariance协方差矩阵). 将这两者代入f得到不同分布, μ决定几率分布最高点, Σ决定分布的密集程度.

从79个样本找到该高斯分布->估测其μ, Σ得到分布函数->得到某新点从该分布抽样出来的概率.

参数估计-极大似然法

极大似然估计法Maximum Likelihood

似然函数L代表: 对待估参数, 从其决定的高斯函数中采样出已知的79个点的可能性.

$$ L\left( \mu,\Sigma \right) = f_{\mu,\Sigma}\left( x^{1} \right)f_{\mu,\Sigma}\left( x^{2} \right)f_{\mu,\Sigma}\left( x^{3} \right)\ldots\ldots f_{\mu,\Sigma}\left( x^{79} \right) $$

抽出第一个点的概率是f(x1), 抽出这19个点的概率就是f(x1)*…*f(x79).

极大似然估计是要找一个高斯分布, 它抽出这79个点的概率(似然函数值)最大, 记作(𝜇^∗,Σ^∗). 目标为:

$$ \mu^{*},\Sigma^{*} = arg{\max\limits_{\mu,\Sigma}{L\left( {\mu,\Sigma} \right)}} $$

如果你不爽的话, 分别求偏导，解出微分是0的点，即使L最大的那组参数.

如果你爽的话, 直接背公式就好了, μ是数学期望, Σ是协方差:

$$ \mu^{*} = E(X)=\frac{1}{79}{\sum_{n = 1}^{79}x^{n}},\\ \Sigma^{*} = cov(X,X)=E[(X-\mu)(X-\mu)^T]=\frac{1}{79}{\sum_{n = 1}^{79}\left( {x^{n} - \mu^{*}} \right)}\left( {x^{n} - \mu^{*}} \right)^{T} $$

其中协方差是矩阵相乘, 所以要乘转置.

根据已知公式估计出类1水系的参数值为:

$$ \mu^{1} = \begin{bmatrix} 75.0 \\ 71.3 \\ \end{bmatrix},~\Sigma^{1} = \begin{bmatrix} 874 & 327 \\ 327 & 929 \\ \end{bmatrix} $$

类一般系的参数为:

$$ \mu^{2} = \begin{bmatrix} 55.6 \\ 59.8 \\ \end{bmatrix},~\Sigma^{2} = \begin{bmatrix} 847 & 422 \\ 422 & 685 \\ \end{bmatrix} $$

做分类

有4个值就可以开始做分类了.

其中P(C1)和P(C2)为Prior, (类别C1占总样本比例). P(x|C1) P(x|C2)分别用x代入C1或C2参数μΣ的f:

$$ P\left( x \middle| C_{1} \right) = f_{\mu^{1},\Sigma^{1}}\left( x \right) = \frac{1}{\left( {2\pi} \right)^{D/2}}\frac{1}{\left| \Sigma^{1} \right|^{1/2}}exp\left\{ {- \frac{1}{2}\left\{ {x - \mu^{1}} \right\}^{T}\left\{ \Sigma^{1} \right\}^{- 1}\left\{ {x - \mu^{1}} \right\}} \right\}\\ P\left( x \middle| C_{2} \right) = f_{\mu^{2},\Sigma^{2}}\left( x \right) = \frac{1}{\left( {2\pi} \right)^{D/2}}\frac{1}{\left| \Sigma^{2} \right|^{1/2}}exp\left\{ {- \frac{1}{2}\left\{ {x - \mu^{2}} \right\}^{T}\left\{ \Sigma^{2} \right\}^{- 1}\left\{ {x - \mu^{2}} \right\}} \right\} $$

用上七维空间, 一顿操作猛如虎, 一看准确率50%

改进-共用协方差

其实之前使用的model是不常见的，它给每一个类一个不同参数的高斯分布. 比较常见的做法是，不同的类型可以共用同一个协方差矩阵

协方差矩阵的大小与输入的属性数量(feature size)的平方成正比，所以当属性的数量很大，方差增长非常快. 给不同的高斯分布以不同的协方差矩阵，会造成模型参数太多，而参数多会导致该model的方差(variance)过大，出现过拟合. 对不同的类型使用同一个协方差矩阵，可以有效减少参数.

(covariance是协方差, 反映随机变量的相关程度, 这里强制两种样本的特征的相关程度一样, 符合常识.)

最大似然函数计算

共用协方差矩阵, 用不同μ时, L(μ1, μ2, Σ)的计算方法:

$$ \begin{aligned}L\left( {\mu^{1}\text{,}\mu^{2}\text{,}\Sigma} \right) =& f_{\mu^{1},\Sigma}\left( x^{1} \right)f_{\mu^{1},\Sigma}\left( x^{2} \right)\cdots f_{\mu^{1},\Sigma}\left( x^{79} \right)\\ & \times f_{\mu^{2},\Sigma}\left( x^{80} \right)f_{\mu^{2},\Sigma}\left( x^{81} \right)\cdots f_{\mu^{2},\Sigma}\left( x^{140} \right)\end{aligned} $$

把μ1、μ2和共同的Σ合成一个极大似然函数，μ1、μ2和原来一样，还是各自的均值，而Σ则是原先两个Σ1、Σ2的加权:

$$ \Sigma = \frac{79}{140}\Sigma^{1} + \frac{61}{140}\Sigma^{2} $$

推导过程参考: Pattern Matching and Machine Learning , Bishop, chapter 4.2.2

class 1和class 2在共用协方差矩阵前，分界线是一条曲线；共用covariance matrix后，分界线变成直线，也称之为线性模型(尽管Gaussian分布不是linear的，但是其分类boundary是线性的, 这样的也称为线性模型).

7维一起用上后正确率达到了73%.

机器学习三步骤

做machine learning的三个步骤在classification中体现为:

找到函式集function set(model)

输入x

这些所需的概率(probability)和概率分布(probability distribution)就是model的参数，选择不同的概率分布(包括类型及其参数)，就会得到不同的function. 把不同参数的高斯分布集合起来，就是一个model. 如果不用高斯函数而选择其他分布函数，就是一个新的model了.

怎么决定是哪一个class:

当这个后验概率posterior Probability=P(C1|x)>0.5，就输出class 1，反之就输出class 2(P(C1|x)+ P(C2|x)=1，因此没必要对class 2再去计算一遍)

评价函式好坏

评价函式集(即高斯分布)中每一个function的好坏->评价高斯中的参数(均值, 协方差矩阵). 使用训练集作为输入, 极大似然函数的输出值，就评价了这组参数的好坏.

找到最好的函式

找到的那个最好的function，即找一个概率分布使极大似然函数最大.

那组参数，实际上就是所有样本点的均值和协方差

这里上标i表示第i个点，这里x是一个features的vector，用下标来表示这个vector中的某个feature

其他概率分布

这里拿高斯分布函数举例，可以选择其他概率分布函数(Probability distribution). 简单的分布函数(参数比较少)，bias大variance小；复杂的分布函数， bias小variance大. 可以用数据集来判断一下，用什么样的Probability distribution作为model比较好.

Naive Bayes Classifier(朴素贝叶斯分类法)

朴素贝叶斯为另一种常见假设: 不同维度(dimension)从模型产生出来的几率是相互独立的. 如果该假设成立, 则可以表现得很好. 如果假设不成立, 会导致bias很大.

因此它们之间的covariance都是0，就可以把x产生的几率拆解成各个维度产生的几率之积:

$$ P\left( x \middle| C_{1} \right)=P\left( x_1 \middle| C_{1} \right)P\left( x_2 \middle| C_{1} \right)...P\left( x_k \middle| C_{1} \right) $$

其中每一个维度的分布函数都是一维高斯分布，即原来的高维Gaussian的协方差矩阵是diagonal(对角的)，在不是对角线的地方，值都是0. 这样可减少需要的参数量，得到一个更简单的model.

对于二元(0-1)属性不可能是高斯分布产生的, 可以选择伯努利Bernoulli 分布.

后验概率分析

Posterior Probability:

表达式上下同除以分子，得到:

$$ P\left( C_{1} \middle| x \right) = \frac{1}{1 + \frac{P\left( x \middle| C_{2} \right)P\left( C_{2} \right)}{P\left( x \middle| C_{1} \right)P\left( C_{1} \right)}} $$

分子中后一项取对数ln, 令:

$$ z = ln\frac{P\left( x \middle| C_{1} \right)P\left( C_{1} \right)}{P\left( x \middle| C_{2} \right)P\left( C_{2} \right)} $$

代入可将后验概率写作:

$$ P\left( C_{1} \middle| x \right) = \frac{1}{1 + exp\left( {- z} \right)}= \sigma\left( z \right) $$

这个函数属于sigmoid function(S函数), z->+∞时, f趋近于+∞; z->-∞时, f趋近于0.

(z是我们在西瓜书第3章常见到的对数几率函数)

推导z(对数几率)的形态

根据对数性质, 相乘化为相加:

$$ z = ln\frac{P\left( x \middle| C_{1} \right)}{P\left( x \middle| C_{2} \right)} + ln\frac{P\left( C_{1} \right)}{P\left( C_{2} \right)} $$

其中P(C1)与P(C2)是根据两个种类样本数量算出来的:

$$ ln\frac{P\left( C_{1} \right)}{P\left( C_{2} \right)} = \frac{\frac{N_{1}}{N_{1} + N_{2}}}{\frac{N_{2}}{N_{1} + N_{2}}} = \frac{N_{1}}{N_{2}} $$

而其中P(x|C1)与P(x|C2)是高斯分布:

$$ P\left( x \middle| C_{1} \right) = \frac{1}{\left( {2\pi} \right)^{D/2}}\frac{1}{\left| \Sigma^{1} \right|^{1/2}}exp\left\{ {- \frac{1}{2}\left\{ {x - \mu^{1}} \right\}^{T}\left\{ \Sigma^{1} \right\}^{- 1}\left\{ {x - \mu^{1}} \right\}} \right\}\\ P\left( x \middle| C_{2} \right) = \frac{1}{\left( {2\pi} \right)^{D/2}}\frac{1}{\left| \Sigma^{2} \right|^{1/2}}exp\left\{ {- \frac{1}{2}\left\{ {x - \mu^{2}} \right\}^{T}\left\{ \Sigma^{2} \right\}^{- 1}\left\{ {x - \mu^{2}} \right\}} \right\} $$

将P(x|C1)与P(x|C2)代入z的第一项ln中:

$$ ln\frac{P\left( x \middle| C_{1} \right)}{P\left( x \middle| C_{2} \right)} = ln\frac{\frac{1}{\left( {2\pi} \right)^{D/2}}\frac{1}{\left| \Sigma^{1} \right|^{1/2}}exp\left\{ {- \frac{1}{2}\left\{ {x - \mu^{1}} \right\}^{T}\left\{ \Sigma^{1} \right\}^{- 1}\left\{ {x - \mu^{1}} \right\}} \right\}}{\frac{1}{\left( {2\pi} \right)^{D/2}}\frac{1}{\left| \Sigma^{2} \right|^{1/2}}exp\left\{ {- \frac{1}{2}\left\{ {x - \mu^{2}} \right\}^{T}\left\{ \Sigma^{2} \right\}^{- 1}\left\{ {x - \mu^{2}} \right\}} \right\}} $$

发现分子分母第一项为常数相同, 可以约分. 分子分母第三项都为e的指数函数, 可以相除化相减. ln中第二项第三项相乘化相加, 可得:

$$ \begin{aligned} ln\frac{P\left( x \middle| C_{1} \right)}{P\left( x \middle| C_{2} \right)} &= ln\frac{\left| \Sigma^{2} \right|^{1/2}}{\left| \Sigma^{1} \right|^{1/2}}exp\left\{ {- \frac{1}{2}\left\lbrack {\left\lbrack {x - \mu^{1}} \right\rbrack^{T}\left\lbrack \Sigma^{1} \right\rbrack^{- 1}\left\lbrack {x - \mu^{1}} \right\rbrack - \left\lbrack {x - \mu^{2}} \right\rbrack^{T}\left\lbrack \Sigma^{2} \right\rbrack^{- 1}\left\lbrack {x - \mu^{2}} \right\rbrack} \right\rbrack} \right\}\\ &= ln\frac{\left| \Sigma^{2} \right|^{1/2}}{\left| \Sigma^{1} \right|^{1/2}} - \frac{1}{2}\left\lbrack {\left\lbrack {x - \mu^{1}} \right\rbrack^{T}\left\lbrack \Sigma^{1} \right\rbrack^{- 1}\left\lbrack {x - \mu^{1}} \right\rbrack - \left\lbrack {x - \mu^{2}} \right\rbrack^{T}\left\lbrack \Sigma^{2} \right\rbrack^{- 1}\left\lbrack {x - \mu^{2}} \right\rbrack} \right\rbrack \end{aligned} $$

其中后一项中的因式可以展开, 中间的协方差矩阵转置后相等.

$$ \begin{aligned} &\left( {x - \mu^{1}} \right)^{T}\left( \Sigma^{1} \right)^{- 1}\left( {x - \mu^{1}} \right)\\ &= x^{T}\left( \Sigma^{1} \right)^{- 1}x - x^{T}\left( \Sigma^{1} \right)^{- 1}\mu^{1} - \left( \mu^{1} \right)^{T}\left( \Sigma^{1} \right)^{- 1}x + \left( \mu^{1} \right)^{T}\left( \Sigma^{1} \right)^{- 1}\mu^{1}\\ &= x^{T}\left( \Sigma^{1} \right)^{- 1}x - 2\left( \mu^{1} \right)^{T}\left( \Sigma^{1} \right)^{- 1}x + \left( \mu^{1} \right)^{T}\left( \Sigma^{1} \right)^{- 1}\mu^{1} \end{aligned} $$

$$ \begin{aligned} &\left( {x - \mu^{2}} \right)^{T}\left( \Sigma^{2} \right)^{- 1}\left( {x - \mu^{2}} \right)\\ &= x^{T}\left( \Sigma^{2} \right)^{- 1}x - 2\left( \mu^{2} \right)^{T}\left( \Sigma^{2} \right)^{- 1}x + \left( \mu^{2} \right)^{T}\left( \Sigma^{2} \right)^{- 1}\mu^{2}\end{aligned} $$

代入z可得:

$$ \begin{aligned} z=ln\frac{\left| \Sigma^{2} \right|^{1/2}}{\left| \Sigma^{1} \right|^{1/2}} & - \frac{1}{2}x^{T}\left( \Sigma^{1} \right)^{- 1}x + \left( \mu^{1} \right)^{T}\left( \Sigma^{1} \right)^{- 1}x - \frac{1}{2}\left( \mu^{1} \right)^{T}\left( \Sigma^{1} \right)^{- 1}\mu^{1}\\ &+ \frac{1}{2}x^{T}\left( \Sigma^{2} \right)^{- 1}x - \left( \mu^{2} \right)^{T}\left( \Sigma^{2} \right)^{- 1}x + \frac{1}{2}\left( \mu^{2} \right)^{T}\left( \Sigma^{2} \right)^{- 1}\mu^{2} + ln\frac{N_{1}}{N_{2}} \end{aligned} $$

由于协方差矩阵是共用的:

$$ \Sigma_{1} = \Sigma_{2} = \Sigma $$

所以z的第一项ln1可以消掉. 第二项+项-项相等, 可以消掉. 第三项均有x可以合并:

$$ z = \left( {\mu^{1} - \mu^{2}} \right)^{T}\Sigma^{- 1}x - \frac{1}{2}\left( \mu^{1} \right)^{T}\Sigma^{- 1}\mu^{1} + \frac{1}{2}\left( \mu^{2} \right)^{T}\Sigma^{- 1}\mu^{2} + ln\frac{N_{1}}{N_{2}} $$

其中第一项x的系数( 对Σ求逆(inverse), 对(μ1-μ2)转置(transport) ), 为一个向量𝒘^𝑻. 后面三项都是数字(标量scalar), 即b:

$$ w^T=\left( {\mu^{1} - \mu^{2}} \right)^{T}\Sigma^{- 1} \\ b=- \frac{1}{2}\left( \mu^{1} \right)^{T}\Sigma^{- 1}\mu^{1} + \frac{1}{2}\left( \mu^{2} \right)^{T}\Sigma^{- 1}\mu^{2} + ln\frac{N_{1}}{N_{2}} $$

将z代入后验概率, 得:

$$ P\left( C_{1} \middle| x \right) = \sigma\left( z \right) = \sigma\left( {w \cdot x + b} \right) $$

取对数(e^ln)将问题线性化了.这就是线性分类器-对率回归模型.

(非常平顺地从生成模型过渡到判别模型)

这个式子解释，当class 1和class 2共用的时候，类分界线(boundary)为线性的原因.

在生成式模型(Generative model)中, 一般找出上式几个参数N1, N2, μ1, μ2, Σ, 代入算出w和b，代进P(C1|x)=σ(w^T*x+b)中. 既然是找w和b，何必先求概率，再算w和b，能不能直接把w和b找出来呢？这是下一章节内容.