线性分类|机器学习推导系列(四)

一、从线性回归到线性分类

  1. 线性回归的特性

{ 线 性 { 属 性 线 性 → 打 破 属 性 非 线 性 : 特 征 转 换 ( 多 项 式 回 归 ) 全 局 线 性 → 打 破 全 局 非 线 性 : 线 性 分 类 ( 激 活 函 数 是 非 线 性 ) 系 数 线 性 → 打 破 系 数 非 线 性 : 神 经 网 络 全 局 性 → 打 破 线 性 样 条 回 归 、 决 策 树 数 据 未 加 工 → 打 破 P C A 、 流 形 \left\{\begin{matrix} 线性\left\{\begin{matrix} 属性线性\overset{打破}{\rightarrow}属性非线性:特征转换(多项式回归)\\ 全局线性\overset{打破}{\rightarrow}全局非线性:线性分类(激活函数是非线性)\\ 系数线性\overset{打破}{\rightarrow}系数非线性:神经网络 \end{matrix}\right.\\ 全局性\overset{打破}{\rightarrow}线性样条回归、决策树\\ 数据未加工\overset{打破}{\rightarrow}PCA、流形 \end{matrix}\right. 线线线线线线线线线线PCA

线性回归 f ( w , b ) = w T x + b f(w,b)=w^{T}x+b f(w,b)=wTx+b具备线性、全局性和数据未加工的特性。

线性包括三个方面,其中属性线性指的是 f ( w , b ) f(w,b) f(w,b)关于 x x x是线性的;全局线性指的是 w T x + b w^{T}x+b wTx+b只是一个线性组合,然后直接就输出得到 f ( w , b ) f(w,b) f(w,b)系数线性指的是 f ( w , b ) f(w,b) f(w,b)关于 w T w^{T} wT是线性的。

全局性指的是线性回归是在整个特征空间上学习,并没有将特征空间进行划分然后在每个划分上学习。

数据未加工指的是线性回归直接在给定数据上进行学习没有对数据进行其他的加工。

其他的学习算法跟线性回归比较起来打破了其某些特性,在上面的树状图中也举出了一些例子。

  1. 从线性回归到线性分类

线 性 回 归 ⇒ 降 维 激 活 函 数 线 性 分 类 线性回归\overset{激活函数}{\underset{降维}{\Rightarrow }}线性分类 线线

线性回归经过一个激活函数然后根据一个阈值来获得分类的结果,如此就成为线性分类,也可以理解为将 w T x + b w^{T}x+b wTx+b降维到一维而获得分类结果。

激 活 函 数 y = f ( w T x + b ) , y ∈ { { 0 , 1 } , 硬 分 类 [ 0 , 1 ] , 软 分 类 函 数 f 叫 做 激 活 函 数 ( a c t i v a t i o n   f u n c t i o n ) 函 数 f − 1 叫 做 链 接 函 数 ( l i n k   f u n c t i o n ) f : w T x + b ↦ { 0 , 1 } / [ 0 , 1 ] f − 1 : { 0 , 1 } / [ 0 , 1 ] ↦ w T x + b 激活函数y=f(w^{T}x+b),y\in \left\{\begin{matrix} \left \{0,1\right \},硬分类\\ [0,1],软分类 \end{matrix}\right.\\ 函数f叫做激活函数(activation\: function)\\ 函数f^{-1}叫做链接函数(link\: function)\\ f:w^{T}x+b \mapsto \left \{0,1\right \}/[0,1]\\ f^{-1}:\left \{0,1\right \}/[0,1]\mapsto w^{T}x+b y=f(wTx+b)y{{0,1}[0,1]factivationfunctionf1linkfunctionf:wTx+b{0,1}/[0,1]f1:{0,1}/[0,1]wTx+b

  1. 硬分类和软分类

线 性 分 类 { 硬 分 类 { 线 性 判 别 分 析 感 知 机 软 分 类 { 高 斯 判 别 分 析 朴 素 贝 叶 斯 逻 辑 回 归 线性分类\left\{\begin{matrix} 硬分类\left\{\begin{matrix} 线性判别分析\\ 感知机 \end{matrix}\right.\\ 软分类\left\{\begin{matrix} 高斯判别分析\\ 朴素贝叶斯\\ 逻辑回归 \end{matrix}\right. \end{matrix}\right. 线{线

二、感知机

  1. 概述

假设有一可以被线性分类的样本集 { ( x i , y i ) } i = 1 N \left \{(x_{i},y_{i})\right \}_{i=1}^{N} {(xi,yi)}i=1N,其中 x i ∈ R p , y i { − 1 , + 1 } x_{i}\in \mathbb{R}^{p},y_{i}\left \{-1,+1\right \} xiRp,yi{1,+1}。感知机算法使用随机梯度下降法(SGD)来在特征空间$ \mathbb{R}{p}$寻找一个超平面$w{T}x+b=0 来 将 数 据 划 分 为 正 、 负 两 类 , 其 中 来将数据划分为正、负两类,其中 w\in \mathbb{R}^{p}$,是超平面的法向量。

  1. 学习策略

感知机的思想是错误驱动。其模型是 f ( x ) = s i g n ( w T x + b ) f(x)=sign(w^{T}x+b) f(x)=sign(wTx+b) f ( x ) f(x) f(x)输出该样本点的类别,定义集合M为误分类点的集合。

可以确定对于误分类的数据 ( x i , y i ) (x_{i},y_{i}) (xi,yi)来说,满足以下关系:

− y i ( w T x i + b ) ‾ = ∣ w T x i + b ∣ > 0 \underset{=\left |w^{T}x_{i}+b \right |}{\underline{-y_{i}(w^{T}x_{i}+b)}}>0 =wTxi+byi(wTxi+b)>0

损失函数的一个自然选择是误分类点的个数,即 L ( w ) = ∑ i = 1 N I { − y i ( w T x i + b ) > 0 } L(w)=\sum_{i=1}^{N}I\left \{-y_{i}(w^{T}x_{i}+b)>0\right \} L(w)=i=1NI{yi(wTxi+b)>0},但是这样的损失函数是不可导的,不易优化。因此采用另一种损失函数,即误分类点到超平面的总距离。

R p {R}^{p} Rp空间中任一点 x 0 x_{0} x0到超平面的距离为:

∣ w T x 0 + b ∣ ∥ w ∥ ( 可 以 参 考 初 中 知 识 , 平 面 中 点 到 直 线 的 距 离 : d = ∣ A x + B y + C ∣ A 2 + B 2 ) \frac{\left | w^{T}x_{0}+b\right |}{\left \| w\right \|}\\ (可以参考初中知识,平面中点到直线的距离:d=\frac{\left | Ax+By+C\right |}{\sqrt{A^{2}+B^{2}}}) wwTx0+b(线d=A2+B2 Ax+By+C)

因此所有误分类点到超平面 w T x + b = 0 w^{T}x+b=0 wTx+b=0的总距离为:

∑ x i ∈ M ∣ w T x 0 + b ∣ ∥ w ∥ = − 1 ∥ w ∥ ∑ x i ∈ M y i ( w T x i + b ) \sum _{x_{i}\in M}\frac{\left | w^{T}x_{0}+b\right |}{\left \| w\right \|}=-\frac{1}{{\left \| w\right \|}}\sum _{x_{i}\in M}y_{i}(w^{T}x_{i}+b) xiMwwTx0+b=w1xiMyi(wTxi+b)

不考虑 1 ∥ w ∥ \frac{1}{{\left \| w\right \|}} w1,就得到感知机的损失函数:

L ( w , b ) = − ∑ x i ∈ M y i ( w T x i + b ) L(w,b)=-\sum _{x_{i}\in M}y_{i}(w^{T}x_{i}+b) L(w,b)=xiMyi(wTxi+b)

  1. 学习算法

计算损失函数的梯度:

∂ L ( w , b ) ∂ w = − ∑ x i ∈ M y i x i ∂ L ( w , b ) ∂ b = − ∑ x i ∈ M y i \frac{\partial L(w,b)}{\partial w}=-\sum _{x_{i}\in M}y_{i}x_{i}\\ \frac{\partial L(w,b)}{\partial b}=-\sum _{x_{i}\in M}y_{i} wL(w,b)=xiMyixibL(w,b)=xiMyi

感知机的学习算法使用随机梯度下降法(SGD),这里选取 η ( 0 < η ≤ 1 ) \eta (0<\eta\leq 1) η(0<η1)作为学习率,其学习的步骤如下:
①选取初值 w 0 , b 0 w_{0},b_{0} w0,b0
②在训练集中选取数据 ( x i , y i ) (x_{i},y_{i}) (xi,yi)
③如果 y i ( w T x i + b ) ≤ 0 y_{i}(w^{T}x_{i}+b)\leq 0 yi(wTxi+b)0,则更新参数:

w ← w + η y i x i b ← b + η y i w\leftarrow w+\eta y_{i}x_{i}\\ b\leftarrow b+\eta y_{i} ww+ηyixibb+ηyi

④转至②,直到训练集中没有误分类点。

截止这里我们都是假设数据是线性可分的,如果线性不可分,可以用口袋算法(pocket algorithm),这里不做过多介绍。

三、线性判别分析

  1. 概述

线性判别分析可用于处理二分类问题,其过程是寻找一个最佳的投影方向,使得样本点在该方向上的投影符合类内小、类间大的思想,具体指的是类内的方差之和小,类间的均值之差大。

LDA

假设有以下数据:

X = ( x 1 , x 1 , ⋯   , x N ) T = ( x 1 T x 2 T ⋮ x N T ) N × p Y = ( y 1 y 2 ⋮ y N ) N × 1 { ( x i , y i ) } i = 1 N , x i ∈ R p , y i ∈ { + 1 ‾ C 1 , − 1 ‾ C 2 } x C 1 = { x i ∣ y i = + 1 } , x C 2 = { x i ∣ y i = − 1 } ∣ x C 1 ∣ = N 1 , ∣ x C 2 ∣ = N 2 , N 1 + N 2 = N X=(x_{1},x_{1},\cdots ,x_{N})^{T}=\begin{pmatrix} x_{1}^{T}\\ x_{2}^{T}\\ \vdots \\ x_{N}^{T} \end{pmatrix}_{N\times p}Y=\begin{pmatrix} y_{1}\\ y_{2}\\ \vdots \\ y_{N} \end{pmatrix}_{N \times 1}\\ \left \{(x_{i},y_{i})\right \}_{i=1}^{N},x_{i}\in \mathbb{R}^{p},y_{i}\in \{\underset{C_{1}}{\underline{+1}},\underset{C_{2}}{\underline{-1}}\}\\ x_{C_{1}}=\left \{x_{i}|y_{i}=+1\right \},x_{C_{2}}=\left \{x_{i}|y_{i}=-1\right \}\\ \left | x_{C_{1}}\right |=N_{1},\left | x_{C_{2}}\right |=N_{2},N_{1}+N_{2}=N X=(x1,x1,,xN)T=x1Tx2TxNTN×pY=y1y2yNN×1{(xi,yi)}i=1N,xiRp,yi{C1+1,C21}xC1={xiyi=+1},xC2={xiyi=1}xC1=N1,xC2=N2,N1+N2=N

  1. 线性判别分析的损失函数

投影轴的方向向量为 w w w,将样本点往该轴上投影以后的值 z i z_{i} zi w T x i w^{T}x_{i} wTxi,均值和方差按照如下方法计算:

均 值 z ˉ = 1 N ∑ i = 1 N z i = 1 N ∑ i = 1 N w T x i 方 差 S z = 1 N ∑ i = 1 N ( w T x i − z ˉ ) ( w T x i − z ˉ ) T 均值\bar{z}=\frac{1}{N}\sum_{i=1}^{N}z_{i}=\frac{1}{N}\sum_{i=1}^{N}w^{T}x_{i}\\ 方差S_{z}=\frac{1}{N}\sum_{i=1}^{N}(w^{T}x_{i}-\bar{z})(w^{T}x_{i}-\bar{z})^{T} zˉ=N1i=1Nzi=N1i=1NwTxiSz=N1i=1N(wTxizˉ)(wTxizˉ)T

接下来计算每一类的均值和方差:

C 1 : z ˉ 1 = 1 N 1 ∑ i = 1 N 1 w T x i S 1 = 1 N 1 ∑ i = 1 N 1 ( w T x i − z ˉ 1 ) ( w T x i − z ˉ 1 ) T C 2 : z ˉ 2 = 1 N 2 ∑ i = 1 N 2 w T x i S 2 = 1 N 2 ∑ i = 1 N 2 ( w T x i − z ˉ 1 ) ( w T x i − z ˉ 1 ) T C_{1}:\\ \bar{z}_{1}=\frac{1}{N_{1}}\sum_{i=1}^{N_{1}}w^{T}x_{i}\\ S_{1}=\frac{1}{N_{1}}\sum_{i=1}^{N_{1}}(w^{T}x_{i}-\bar{z}_{1})(w^{T}x_{i}-\bar{z}_{1})^{T}\\ C_{2}:\\ \bar{z}_{2}=\frac{1}{N_{2}}\sum_{i=1}^{N_{2}}w^{T}x_{i}\\ S_{2}=\frac{1}{N_{2}}\sum_{i=1}^{N_{2}}(w^{T}x_{i}-\bar{z}_{1})(w^{T}x_{i}-\bar{z}_{1})^{T} C1zˉ1=N11i=1N1wTxiS1=N11i=1N1(wTxizˉ1)(wTxizˉ1)TC2zˉ2=N21i=1N2wTxiS2=N21i=1N2(wTxizˉ1)(wTxizˉ1)T

定义损失函数:

J ( w ) = ( z ˉ 1 − z ˉ 2 ) 2 S 1 + S 2 ( z ˉ 1 − z ˉ 2 ) 2 = ( 1 N 1 ∑ i = 1 N 1 w T x i − 1 N 2 ∑ i = 1 N 2 w T x i ) 2 = [ w T ( 1 N 1 ∑ i = 1 N 1 x i − 1 N 2 ∑ i = 1 N 2 x i ) ] 2 = [ w T ( x ˉ C 1 − x ˉ C 2 ) ] 2 = w T ( x ˉ C 1 − x ˉ C 2 ) ( x ˉ C 1 − x ˉ C 2 ) T w S 1 = 1 N 1 ∑ i = 1 N 1 ( w T x i − z ˉ 1 ) ( w T x i − z ˉ 1 ) T = 1 N 1 ∑ i = 1 N 1 ( w T x i − 1 N 1 ∑ i = 1 N 1 w T x i ) ( w T x i − 1 N 1 ∑ i = 1 N 1 w T x i ) T = 1 N 1 ∑ i = 1 N 1 w T ( x i − x ˉ C 1 ) ( x i − x ˉ C 1 ) T w = w T [ 1 N 1 ∑ i = 1 N 1 ( x i − x ˉ C 1 ) ( x i − x ˉ C 1 ) T ] w = w T S C 1 w S 1 + S 2 = w T S C 1 w + w T S C 2 w = w T ( S C 1 + S C 2 ) w ∴ J ( w ) = w T ( x ˉ C 1 − x ˉ C 2 ) ( x ˉ C 1 − x ˉ C 2 ) T w w T ( S C 1 + S C 2 ) w J(w)=\frac{(\bar{z}_{1}-\bar{z}_{2})^{2}}{S_{1}+S_{2}} (\bar{z}_{1}-\bar{z}_{2})^{2}=(\frac{1}{N_{1}}\sum_{i=1}^{N_{1}}w^{T}x_{i}-\frac{1}{N_{2}}\sum_{i=1}^{N_{2}}w^{T}x_{i})^{2}\\ =[w^{T}(\frac{1}{N_{1}}\sum_{i=1}^{N_{1}}x_{i}-\frac{1}{N_{2}}\sum_{i=1}^{N_{2}}x_{i})]^{2}\\ =[w^{T}(\bar{x}_{C_{1}}-\bar{x}_{C_{2}})]^{2}\\ =w^{T}(\bar{x}_{C_{1}}-\bar{x}_{C_{2}})(\bar{x}_{C_{1}}-\bar{x}_{C_{2}})^{T}w\\ S_{1}=\frac{1}{N_{1}}\sum_{i=1}^{N_{1}}(w^{T}x_{i}-\bar{z}_{1})(w^{T}x_{i}-\bar{z}_{1})^{T}\\ =\frac{1}{N_{1}}\sum_{i=1}^{N_{1}}(w^{T}x_{i}-\frac{1}{N_{1}}\sum_{i=1}^{N_{1}}w^{T}x_{i})(w^{T}x_{i}-\frac{1}{N_{1}}\sum_{i=1}^{N_{1}}w^{T}x_{i})^{T}\\ =\frac{1}{N_{1}}\sum_{i=1}^{N_{1}}w^{T}(x_{i}-\bar{x}_{C_{1}})(x_{i}-\bar{x}_{C_{1}})^{T}w\\ =w^{T}[\frac{1}{N_{1}}\sum_{i=1}^{N_{1}}(x_{i}-\bar{x}_{C_{1}})(x_{i}-\bar{x}_{C_{1}})^{T}]w\\ =w^{T}S_{C_{1}}w\\ S_{1}+S_{2}=w^{T}S_{C_{1}}w+w^{T}S_{C_{2}}w=w^{T}(S_{C_{1}}+S_{C_{2}})w\\ \therefore J(w)=\frac{w^{T}(\bar{x}_{C_{1}}-\bar{x}_{C_{2}})(\bar{x}_{C_{1}}-\bar{x}_{C_{2}})^{T}w}{w^{T}(S_{C_{1}}+S_{C_{2}})w} J(w)=S1+S2(zˉ1zˉ2)2(zˉ1zˉ2)2=(N11i=1N1wTxiN21i=1N2wTxi)2=[wT(N11i=1N1xiN21i=1N2xi)]2=[wT(xˉC1xˉC2)]2=wT(xˉC1xˉC2)(xˉC1xˉC2)TwS1=N11i=1N1(wTxizˉ1)(wTxizˉ1)T=N11i=1N1(wTxiN11i=1N1wTxi)(wTxiN11i=1N1wTxi)T=N11i=1N1wT(xixˉC1)(xixˉC1)Tw=wT[N11i=1N1(xixˉC1)(xixˉC1)T]w=wTSC1wS1+S2=wTSC1w+wTSC2w=wT(SC1+SC2)wJ(w)=wT(SC1+SC2)wwT(xˉC1xˉC2)(xˉC1xˉC2)Tw

极大化 J ( w ) J(w) J(w)就可以使得类内的方差之和小,类间的均值之差大。

  1. 线性判别分析的求解

令 { S b = ( x ˉ C 1 − x ˉ C 2 ) ( x ˉ C 1 − x ˉ C 2 ) T S w = S C 1 + S C 2 则 J ( w ) = w T S b w w T S w w = w T S b w ( w T S w w ) − 1 ∂ J ( w ) ∂ w = 2 S b w ( w T S w w ) − 1 + w T S b w ( − 1 ) ( w T S w w ) − 2 2 S b w = 2 [ S b w ( w T S w w ) − 1 + w T S b w ( − 1 ) ( w T S w w ) − 2 S b w ] = 0 ( w T S b w , w T S w w ∈ R ) ⇒ S b w ( w T S w w ) − w T S b w S w w = 0 ⇒ w T S b w S w w = S b w ( w T S w w ) ⇒ S w w = w T S w w w T S b w S b w ⇒ w = w T S w w w T S b w S w − 1 S b w ( 要 注 意 对 于 w 我 们 只 关 注 它 的 方 向 , 不 关 心 它 的 大 小 。 ) ⇒ w ∝ S w − 1 S b w ⇒ w ∝ S w − 1 ( x ˉ C 1 − x ˉ C 2 ) ( x ˉ C 1 − x ˉ C 2 ) T w ⏟ 1 维 ⇒ w ∝ S w − 1 ( x ˉ C 1 − x ˉ C 2 ) ⇒ w ∝ ( S C 1 + S C 2 ) − 1 ( x ˉ C 1 − x ˉ C 2 ) 令\left\{\begin{matrix} S_{b}=(\bar{x}_{C_{1}}-\bar{x}_{C_{2}})(\bar{x}_{C_{1}}-\bar{x}_{C_{2}})^{T}\\ S_{w}=S_{C_{1}}+S_{C_{2}} \end{matrix}\right.\\ 则J(w)=\frac{w^{T}S_{b}w}{w^{T}S_{w}w}=w^{T}S_{b}w(w^{T}S_{w}w)^{-1}\\ \frac{\partial J(w)}{\partial w}=2S_{b}w(w^{T}S_{w}w)^{-1}+w^{T}S_{b}w(-1)(w^{T}S_{w}w)^{-2}2S_{b}w\\ =2[S_{b}w(w^{T}S_{w}w)^{-1}+w^{T}S_{b}w(-1)(w^{T}S_{w}w)^{-2}S_{b}w]=0\\ (w^{T}S_{b}w,w^{T}S_{w}w\in \mathbb{R})\\ \Rightarrow S_{b}w(w^{T}S_{w}w)-w^{T}S_{b}wS_{w}w=0\\ \Rightarrow w^{T}S_{b}wS_{w}w=S_{b}w(w^{T}S_{w}w)\\ \Rightarrow S_{w}w=\frac{w^{T}S_{w}w}{w^{T}S_{b}w}S_{b}w\\ \Rightarrow w=\frac{w^{T}S_{w}w}{w^{T}S_{b}w}S_{w}^{-1}S_{b}w\\ (要注意对于w我们只关注它的方向,不关心它的大小。)\\ \Rightarrow w\propto S_{w}^{-1}S_{b}w\\ \Rightarrow w\propto S_{w}^{-1}(\bar{x}_{C_{1}}-\bar{x}_{C_{2}})\underset{1维}{\underbrace{(\bar{x}_{C_{1}}-\bar{x}_{C_{2}})^{T}w}}\\ \Rightarrow w\propto S_{w}^{-1}(\bar{x}_{C_{1}}-\bar{x}_{C_{2}})\\ \Rightarrow w\propto (S_{C_{1}}+S_{C_{2}})^{-1}(\bar{x}_{C_{1}}-\bar{x}_{C_{2}}) {Sb=(xˉC1xˉC2)(xˉC1xˉC2)TSw=SC1+SC2J(w)=wTSwwwTSbw=wTSbw(wTSww)1wJ(w)=2Sbw(wTSww)1+wTSbw(1)(wTSww)22Sbw=2[Sbw(wTSww)1+wTSbw(1)(wTSww)2Sbw]=0wTSbw,wTSwwRSbw(wTSww)wTSbwSww=0wTSbwSww=Sbw(wTSww)Sww=wTSbwwTSwwSbww=wTSbwwTSwwSw1SbwwwSw1SbwwSw1(xˉC1xˉC2)1 (xˉC1xˉC2)TwwSw1(xˉC1xˉC2)w(SC1+SC2)1(xˉC1xˉC2)

进一步如果 S w − 1 S_{w}^{-1} Sw1是各向同性的对角矩阵的话, w ∝ x ˉ C 1 − x ˉ C 2 w\propto \bar{x}_{C_{1}}-\bar{x}_{C_{2}} wxˉC1xˉC2

四、逻辑回归

  1. 概述

逻辑回归是一种二分类算法,通过 s i g m o i d sigmoid sigmoid激活函数将线性组合 w T x w^{T}x wTx压缩到 0 0 0 1 1 1之间来代表属于某一个分类的概率。

假设有如下数据:

{ ( x i , y i ) } i = 1 N , x i ∈ R p , y i ∈ { 0 , 1 } \left \{(x_{i},y_{i})\right \}_{i=1}^{N},x_{i}\in \mathbb{R}^{p},y_{i}\in \left \{0,1\right \} {(xi,yi)}i=1N,xiRp,yi{0,1}

  1. s i g m o i d sigmoid sigmoid激活函数

σ ( z ) = 1 1 + e − z \sigma (z)=\frac{1}{1+e^{-z}} σ(z)=1+ez1

其图像为:

sigmoid函数

  1. 逻辑回归的模型

逻辑回归预测 y = 1 y=1 y=1的概率,然后根据极大似然估计法来求解。

p 1 = P ( y = 1 ∣ x ) = σ ( w T x ) = 1 1 + e − w T x = φ ( x ; w ) p 0 = P ( y = 0 ∣ x ) = 1 − P ( y = 1 ∣ x ) = e − w T x 1 + e − w T x = 1 − φ ( x ; w ) } p ( y ∣ x ) = p 1 y p 0 1 − y \left.\begin{matrix} p_{1}=P(y=1|x)=\sigma (w^{T}x)=\frac{1}{1+e^{-w^{T}x}}=\varphi (x;w)\\ p_{0}=P(y=0|x)=1-P(y=1|x)=\frac{e^{-w^{T}x}}{1+e^{-w^{T}x}}=1-\varphi (x;w) \end{matrix}\right\}p(y|x)=p_{1}^{y}p_{0}^{1-y} p1=P(y=1x)=σ(wTx)=1+ewTx1=φ(x;w)p0=P(y=0x)=1P(y=1x)=1+ewTxewTx=1φ(x;w)}p(yx)=p1yp01y

  1. 逻辑回归的求解

w ^ = a r g m a x w   l o g P ( Y ∣ X ) ⏟ l i k e l i h o o d = a r g m a x w   l o g ∏ i = 1 N P ( y i ∣ x i ) = a r g m a x w ∑ i = 1 N l o g P ( y i ∣ x i ) = a r g m a x w ∑ i = 1 N ( y i l o g   p 1 + ( 1 − y i ) l o g   p 0 ) = a r g m a x w ∑ i = 1 N ( y i l o g   φ ( x ; w ) + ( 1 − y i ) l o g ( 1 − φ ( x ; w ) ) ⏟ −   c r o s s   e n t r o p y \hat{w}=\underset{w}{argmax}\: log\underset{likelihood}{\underbrace{P(Y|X)}}\\ =\underset{w}{argmax}\: log\prod_{i=1}^{N}P(y_{i}|x_{i})\\ =\underset{w}{argmax}\sum _{i=1}^{N}logP(y_{i}|x_{i})\\ =\underset{w}{argmax}\sum _{i=1}^{N}(y_{i}log\: p_{1}+(1-y_{i})log\: p_{0})\\ =\underset{w}{argmax}\underset{-\: cross\: entropy}{\underbrace{\sum _{i=1}^{N}(y_{i}log\: \varphi (x;w)+(1-y_{i})log(1-\varphi (x;w))}} w^=wargmaxloglikelihood P(YX)=wargmaxlogi=1NP(yixi)=wargmaxi=1NlogP(yixi)=wargmaxi=1N(yilogp1+(1yi)logp0)=wargmaxcrossentropy i=1N(yilogφ(x;w)+(1yi)log(1φ(x;w))

因此这里的极大似然估计就等价于极小化交叉熵损失函数。

求导的过程较为简单,就不做展示了。

五、高斯判别分析

  1. 概述

假设有如下数据:

{ ( x i , y i ) } i = 1 N , x i ∈ R p , y i ∈ { 0 , 1 } \left \{(x_{i},y_{i})\right \}_{i=1}^{N},x_{i}\in \mathbb{R}^{p},y_{i}\in \left \{0,1\right \} {(xi,yi)}i=1N,xiRp,yi{0,1}

  1. 高斯判别分析的模型

在高斯判别分析中样本数据的类别 y y y在给定的情况下服从伯努利分布,另外不同类别中的样本数据分别服从多元高斯分布,因此有以下模型:

y ∼ B e r n o u l l i ( ϕ ) ⇔ ϕ y , y = 1 ( 1 − ϕ ) 1 − y , y = 0 } P ( y ) = ϕ y ϕ 1 − y x ∣ y = 1 ∼ N ( μ 1 , Σ ) x ∣ y = 0 ∼ N ( μ 2 , Σ ) } P ( x ∣ y ) = N ( μ 1 , Σ ) y N ( μ 2 , Σ ) 1 − y y\sim Bernoulli(\phi )\Leftrightarrow \left.\begin{matrix} \phi ^{y},y=1\\ (1-\phi)^{1-y},y=0 \end{matrix}\right\}P(y)=\phi^{y}\phi^{1-y}\\ \left.\begin{matrix} x|y=1\sim N(\mu _{1},\Sigma )\\ x|y=0\sim N(\mu _{2},\Sigma ) \end{matrix}\right\}P(x|y)=N(\mu _{1},\Sigma )^{y}N(\mu _{2},\Sigma )^{1-y} yBernoulli(ϕ)ϕy,y=1(1ϕ)1y,y=0}P(y)=ϕyϕ1yxy=1N(μ1,Σ)xy=0N(μ2,Σ)}P(xy)=N(μ1,Σ)yN(μ2,Σ)1y

这里假设两个高斯分布具有同样的方差。

  1. 高斯判别模型的求解
  • 损失函数

高斯判别模型的损失函数为其 l o g log log似然,要估计的参数 θ \theta θ ( μ 1 , μ 2 , Σ , ϕ ) (\mu _{1},\mu _{2},\Sigma ,\phi ) (μ1,μ2,Σ,ϕ):

L ( θ ) = l o g ∏ i = 1 N P ( x i , y i ) = ∑ i = 1 N l o g P ( x i , y i ) = ∑ i = 1 N l o g P ( x i ∣ y i ) P ( y i ) = ∑ i = 1 N [ l o g P ( x i ∣ y i ) + l o g P ( y i ) ] = ∑ i = 1 N [ l o g N ( μ 1 , Σ ) y i N ( μ 2 , Σ ) 1 − y i + l o g ϕ y i ϕ 1 − y i ] = ∑ i = 1 N [ l o g N ( μ 1 , Σ ) y i ⏟ ① + l o g N ( μ 2 , Σ ) 1 − y i ⏟ ② + l o g ϕ y i ϕ 1 − y i ⏟ ③ ] L(\theta )=log\prod_{i=1}^{N}P(x_{i},y_{i})\\ =\sum _{i=1}^{N}logP(x_{i},y_{i})\\ =\sum _{i=1}^{N}logP(x_{i}|y_{i})P(y_{i})\\ =\sum _{i=1}^{N}[logP(x_{i}|y_{i})+logP(y_{i})]\\ =\sum _{i=1}^{N}[logN(\mu _{1},\Sigma )^{y_{i}}N(\mu _{2},\Sigma )^{1-y_{i}}+log\phi^{y_{i}}\phi^{1-y_{i}}]\\ =\sum _{i=1}^{N}[\underset{①}{\underbrace{logN(\mu _{1},\Sigma )^{y_{i}}}}+\underset{②}{\underbrace{logN(\mu _{2},\Sigma )^{1-y_{i}}}}+\underset{③}{\underbrace{log\phi^{y_{i}}\phi^{1-y_{i}}}}] L(θ)=logi=1NP(xi,yi)=i=1NlogP(xi,yi)=i=1NlogP(xiyi)P(yi)=i=1N[logP(xiyi)+logP(yi)]=i=1N[logN(μ1,Σ)yiN(μ2,Σ)1yi+logϕyiϕ1yi]=i=1N[ logN(μ1,Σ)yi+ logN(μ2,Σ)1yi+ logϕyiϕ1yi]

然后使用极大似然估计法来求解:

θ ^ = a r g m a x θ L ( θ ) \hat{\theta }=\underset{\theta}{argmax}L(\theta ) θ^=θargmaxL(θ)

定义标签为 1 1 1的样本个数为 N 1 N_{1} N1,标签为 0 0 0的样本个数为 N 2 N_{2} N2,则有 N 1 + N 2 ‘ = N N_{1}+N_{2} `= N N1+N2=N

  • 求解 ϕ \phi ϕ

ϕ \phi ϕ只存在于③式中,因此求解 ϕ \phi ϕ只需要看③式即可:

③ = ∑ i = 1 N [ y i l o g ϕ + ( 1 − y i ) l o g ( 1 − ϕ ) ] ∂ ③ ∂ ϕ = ∑ i = 1 N [ y i 1 ϕ − ( 1 − y i ) 1 1 − ϕ ] = 0 ⇒ ∑ i = 1 N [ y i ( 1 − ϕ ) − ( 1 − y i ) ϕ ] = 0 ⇒ ∑ i = 1 N ( y i − ϕ ) = 0 ⇒ ∑ i = 1 N y i − N ϕ = 0 ϕ ^ = 1 N ∑ i = 1 N y i = N 1 N ③=\sum _{i=1}^{N}[y_{i}log\phi +(1-y_{i})log(1-\phi )]\\ \frac{\partial ③}{\partial \phi}=\sum _{i=1}^{N}[y_{i}\frac{1}{\phi}-(1-y_{i})\frac{1}{1-\phi }]=0\\ \Rightarrow \sum _{i=1}^{N}[y_{i}(1-\phi)-(1-y_{i})\phi ]=0\\ \Rightarrow \sum _{i=1}^{N}(y_{i}-\phi)=0\\ \Rightarrow \sum _{i=1}^{N}y_{i}-N\phi=0\\ \hat{\phi}=\frac{1}{N}\sum _{i=1}^{N}y_{i}=\frac{N_{1}}{N} =i=1N[yilogϕ+(1yi)log(1ϕ)]ϕ=i=1N[yiϕ1(1yi)1ϕ1]=0i=1N[yi(1ϕ)(1yi)ϕ]=0i=1N(yiϕ)=0i=1NyiNϕ=0ϕ^=N1i=1Nyi=NN1

  • 求解 μ 1 、 μ 2 \mu_{1}、\mu_{2} μ1μ2

ϕ \phi ϕ只存在于①式中,因此求解 μ 1 \mu_{1} μ1只需要看①式即可:

① = ∑ i = 1 N y i l o g 1 ( 2 π ) p / 2 ∣ Σ ∣ 1 / 2 e x p { − 1 2 ( x i − μ 1 ) T Σ − 1 ( x i − μ 1 ) } μ 1 = a r g m a x μ 1 ① = a r g m a x μ 1 ∑ i = 1 N y i [ l o g 1 ( 2 π ) p / 2 ∣ Σ ∣ 1 / 2 − 1 2 ( x i − μ 1 ) T Σ − 1 ( x i − μ 1 ) ] = a r g m a x μ 1 ∑ i = 1 N y i [ − 1 2 ( x i − μ 1 ) T Σ − 1 ( x i − μ 1 ) ] = a r g m a x μ 1 Δ Δ = ∑ i = 1 N y i [ − 1 2 ( x i − μ 1 ) T Σ − 1 ( x i − μ 1 ) ] = − 1 2 ∑ i = 1 N y i ( x i T Σ − 1 − μ 1 T Σ − 1 ) ( x i − μ 1 ) = − 1 2 ∑ i = 1 N y i ( x i T Σ − 1 x i − 2 μ 1 T Σ − 1 x i + μ 1 T Σ − 1 μ 1 ) ∂ Δ ∂ μ 1 = − 1 2 ∑ i = 1 N y i ( − 2 Σ − 1 x i + 2 Σ − 1 μ 1 ) = 0 ⇒ ∑ i = 1 N y i ( Σ − 1 μ 1 − Σ − 1 x i ) = 0 ⇒ ∑ i = 1 N y i ( μ 1 − x i ) = 0 ⇒ ∑ i = 1 N y i μ 1 = ∑ i = 1 N y i x i μ 1 ^ = ∑ i = 1 N y i x i ∑ i = 1 N y i = ∑ i = 1 N y i x i N 1 同 理 μ 2 ^ = ∑ i = 1 N y i x i N 2 ①=\sum _{i=1}^{N}y_{i}log\frac{1}{(2\pi )^{p/2}|\Sigma |^{1/2}}exp\left \{-\frac{1}{2}(x_{i}-\mu _{1})^{T}\Sigma ^{-1}(x_{i}-\mu _{1})\right \}\\ \mu _{1}=\underset{\mu _{1}}{argmax}①\\ =\underset{\mu _{1}}{argmax}\sum _{i=1}^{N}y_{i}[log\frac{1}{(2\pi )^{p/2}|\Sigma |^{1/2}}-\frac{1}{2}(x_{i}-\mu _{1})^{T}\Sigma ^{-1}(x_{i}-\mu _{1})]\\ =\underset{\mu _{1}}{argmax}\sum _{i=1}^{N}y_{i}[-\frac{1}{2}(x_{i}-\mu _{1})^{T}\Sigma ^{-1}(x_{i}-\mu _{1})]\\ =\underset{\mu _{1}}{argmax}\Delta\\ \Delta=\sum _{i=1}^{N}y_{i}[-\frac{1}{2}(x_{i}-\mu _{1})^{T}\Sigma ^{-1}(x_{i}-\mu _{1})]\\ =-\frac{1}{2}\sum _{i=1}^{N}y_{i}(x_{i}^{T}\Sigma ^{-1}-\mu _{1}^{T}\Sigma ^{-1})(x_{i}-\mu _{1})\\ =-\frac{1}{2}\sum _{i=1}^{N}y_{i}(x_{i}^{T}\Sigma ^{-1}x_{i}-2\mu _{1}^{T}\Sigma ^{-1}x_{i}+\mu _{1}^{T}\Sigma ^{-1}\mu _{1})\\ \frac{\partial \Delta}{\partial \mu _{1}}=-\frac{1}{2}\sum _{i=1}^{N}y_{i}(-2\Sigma ^{-1}x_{i}+2\Sigma ^{-1}\mu _{1})=0\\ \Rightarrow \sum _{i=1}^{N}y_{i}(\Sigma ^{-1}\mu _{1}-\Sigma ^{-1}x_{i})=0\\ \Rightarrow \sum _{i=1}^{N}y_{i}(\mu _{1}-x_{i})=0\\ \Rightarrow \sum _{i=1}^{N}y_{i}\mu _{1}=\sum _{i=1}^{N}y_{i}x_{i}\\ \hat{\mu _{1}}=\frac{\sum _{i=1}^{N}y_{i}x_{i}}{\sum _{i=1}^{N}y_{i}}=\frac{\sum _{i=1}^{N}y_{i}x_{i}}{N_{1}}\\ 同理\hat{\mu _{2}}=\frac{\sum _{i=1}^{N}y_{i}x_{i}}{N_{2}} =i=1Nyilog(2π)p/2Σ1/21exp{21(xiμ1)TΣ1(xiμ1)}μ1=μ1argmax=μ1argmaxi=1Nyi[log(2π)p/2Σ1/2121(xiμ1)TΣ1(xiμ1)]=μ1argmaxi=1Nyi[21(xiμ1)TΣ1(xiμ1)]=μ1argmaxΔΔ=i=1Nyi[21(xiμ1)TΣ1(xiμ1)]=21i=1Nyi(xiTΣ1μ1TΣ1)(xiμ1)=21i=1Nyi(xiTΣ1xi2μ1TΣ1xi+μ1TΣ1μ1)μ1Δ=21i=1Nyi(2Σ1xi+2Σ1μ1)=0i=1Nyi(Σ1μ1Σ1xi)=0i=1Nyi(μ1xi)=0i=1Nyiμ1=i=1Nyixiμ1^=i=1Nyii=1Nyixi=N1i=1Nyixiμ2^=N2i=1Nyixi

  • 求解 Σ \Sigma Σ

以下是求解过程中用到的一些预备知识:

∂ t r ( A B ) ∂ A = B T ∂ ∣ A ∣ ∂ A = ∣ A ∣ A − 1 t r ( A B ) = t r ( B A ) t r ( A B C ) = t r ( C A B ) = t r ( B C A ) \frac{\partial tr(AB)}{\partial A}=B^{T}\\ \frac{\partial |A|}{\partial A}=|A|A^{-1}\\ tr(AB)=tr(BA)\\ tr(ABC)=tr(CAB)=tr(BCA) Atr(AB)=BTAA=AA1tr(AB)=tr(BA)tr(ABC)=tr(CAB)=tr(BCA)

两类数据按照以下两个集合来表示:

C 1 = { x i ∣ y i = 1 , i = 1 , 2 , ⋯   , N } C 2 = { x i ∣ y i = 0 , i = 1 , 2 , ⋯   , N } ∣ C 1 ∣ = N 1 , ∣ C 2 ∣ = N 2 , N 1 + N 2 = N C_{1}=\left \{x_{i}|y_{i}=1,i=1,2,\cdots ,N\right \}\\ C_{2}=\left \{x_{i}|y_{i}=0,i=1,2,\cdots ,N\right \}\\ |C_{1}|=N_{1},|C_{2}|=N_{2},N_{1}+N_{2}=N C1={xiyi=1,i=1,2,,N}C2={xiyi=0,i=1,2,,N}C1=N1,C2=N2,N1+N2=N

然后进行求解:

Σ ^ = a r g m a x Σ ( ① + ② ) ① + ② = ∑ x i ∈ C 1 l o g N ( μ 1 , Σ ) + ∑ x i ∈ C 2 l o g N ( μ 2 , Σ ) \hat{\Sigma }=\underset{\Sigma }{argmax}(①+②)\\ ①+②=\sum _{x_{i}\in C_{1}}logN(\mu _{1},\Sigma )+\sum _{x_{i}\in C_{2}}logN(\mu _{2},\Sigma ) Σ^=Σargmax(+)+=xiC1logN(μ1,Σ)+xiC2logN(μ2,Σ)

然后求解上式中的通项:

∑ i = 1 N l o g N ( μ , Σ ) = ∑ i = 1 N l o g 1 ( 2 π ) p / 2 ∣ Σ ∣ 1 / 2 e x p { − 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) } = ∑ i = 1 N [ l o g 1 ( 2 π ) p / 2 + l o g ∣ Σ ∣ − 1 2 − 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) ] = ∑ i = 1 N [ C − 1 2 l o g ∣ Σ ∣ − 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) ] = C − 1 2 N l o g ∣ Σ ∣ − 1 2 ∑ i = 1 N ( x i − μ ) T Σ − 1 ( x i − μ ) = C − 1 2 N l o g ∣ Σ ∣ − 1 2 ∑ i = 1 N t r [ ( x i − μ ) T Σ − 1 ( x i − μ ) ] ( 实 数 的 迹 等 于 其 本 身 ) = C − 1 2 N l o g ∣ Σ ∣ − 1 2 ∑ i = 1 N t r [ ( x i − μ ) ( x i − μ ) T Σ − 1 ] = C − 1 2 N l o g ∣ Σ ∣ − 1 2 t r [ ∑ i = 1 N ( x i − μ ) ( x i − μ ) T Σ − 1 ] = C − 1 2 t r ( N S Σ − 1 ) ( S = 1 N ∑ i = 1 N ( x i − μ ) ( x i − μ ) T , 为 协 方 差 矩 阵 ) = − 1 2 N l o g ∣ Σ ∣ − 1 2 N t r ( S Σ − 1 ) + C 则 ① + ② = − 1 2 N 1 l o g ∣ Σ ∣ − 1 2 N 1 t r ( S 1 Σ − 1 ) − 1 2 N 2 l o g ∣ Σ ∣ − 1 2 N 2 t r ( S 2 Σ − 1 ) + C = − 1 2 N l o g ∣ Σ ∣ − 1 2 N 1 t r ( S 1 Σ − 1 ) − 1 2 N 2 t r ( S 2 Σ − 1 ) + C = − 1 2 [ N l o g ∣ Σ ∣ + N 1 t r ( S 1 Σ − 1 ) + N 2 t r ( S 2 Σ − 1 ) ] + C \sum_{i=1}^{N}logN(\mu ,\Sigma )=\sum_{i=1}^{N}log\frac{1}{(2\pi )^{p/2}|\Sigma |^{1/2}}exp\left \{-\frac{1}{2}(x_{i}-\mu )^{T}\Sigma ^{-1}(x_{i}-\mu )\right \}\\ =\sum_{i=1}^{N}[log\frac{1}{(2\pi )^{p/2}}+log|\Sigma |^{-\frac{1}{2}}-\frac{1}{2}(x_{i}-\mu )^{T}\Sigma ^{-1}(x_{i}-\mu )]\\ =\sum_{i=1}^{N}[C-\frac{1}{2}log|\Sigma |-\frac{1}{2}(x_{i}-\mu )^{T}\Sigma ^{-1}(x_{i}-\mu )]\\ =C-\frac{1}{2}Nlog|\Sigma |-\frac{1}{2}\sum_{i=1}^{N}(x_{i}-\mu )^{T}\Sigma ^{-1}(x_{i}-\mu )\\ =C-\frac{1}{2}Nlog|\Sigma |-\frac{1}{2}\sum_{i=1}^{N}tr[(x_{i}-\mu )^{T}\Sigma ^{-1}(x_{i}-\mu )]\\ (实数的迹等于其本身)\\ =C-\frac{1}{2}Nlog|\Sigma |-\frac{1}{2}\sum_{i=1}^{N}tr[(x_{i}-\mu )(x_{i}-\mu )^{T}\Sigma ^{-1}]\\ =C-\frac{1}{2}Nlog|\Sigma |-\frac{1}{2}tr[\sum_{i=1}^{N}(x_{i}-\mu )(x_{i}-\mu )^{T}\Sigma ^{-1}]\\ =C-\frac{1}{2}tr(NS\Sigma ^{-1})\\ (S=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu )(x_{i}-\mu )^{T},为协方差矩阵)\\ =-\frac{1}{2}Nlog|\Sigma |-\frac{1}{2}Ntr(S\Sigma ^{-1})+C\\ 则①+②=-\frac{1}{2}N_{1}log|\Sigma |-\frac{1}{2}N_{1}tr(S_{1}\Sigma ^{-1})-\frac{1}{2}N_{2}log|\Sigma |-\frac{1}{2}N_{2}tr(S_{2}\Sigma ^{-1})+C\\ =-\frac{1}{2}Nlog|\Sigma |-\frac{1}{2}N_{1}tr(S_{1}\Sigma ^{-1})-\frac{1}{2}N_{2}tr(S_{2}\Sigma ^{-1})+C\\ =-\frac{1}{2}[Nlog|\Sigma |+N_{1}tr(S_{1}\Sigma ^{-1})+N_{2}tr(S_{2}\Sigma ^{-1})]+C i=1NlogN(μ,Σ)=i=1Nlog(2π)p/2Σ1/21exp{21(xiμ)TΣ1(xiμ)}=i=1N[log(2π)p/21+logΣ2121(xiμ)TΣ1(xiμ)]=i=1N[C21logΣ21(xiμ)TΣ1(xiμ)]=C21NlogΣ21i=1N(xiμ)TΣ1(xiμ)=C21NlogΣ21i=1Ntr[(xiμ)TΣ1(xiμ)]()=C21NlogΣ21i=1Ntr[(xiμ)(xiμ)TΣ1]=C21NlogΣ21tr[i=1N(xiμ)(xiμ)TΣ1]=C21tr(NSΣ1)(S=N1i=1N(xiμ)(xiμ)T,)=21NlogΣ21Ntr(SΣ1)+C+=21N1logΣ21N1tr(S1Σ1)21N2logΣ21N2tr(S2Σ1)+C=21NlogΣ21N1tr(S1Σ1)21N2tr(S2Σ1)+C=21[NlogΣ+N1tr(S1Σ1)+N2tr(S2Σ1)]+C

然后对 Σ \Sigma Σ进行求导:

∂ ① + ② ∂ Σ = − 1 2 [ N 1 ∣ Σ ∣ ∣ Σ ∣ Σ − 1 + N 1 ∂ t r ( Σ − 1 S 1 ) ∂ Σ + N 2 ∂ t r ( Σ − 1 S 2 ) ∂ Σ ] = − 1 2 [ N Σ − 1 + N 1 S 1 T ( − 1 ) Σ − 2 + N 2 S 2 T ( − 1 ) Σ − 2 ] = − 1 2 ( N Σ − 1 − N 1 S 1 T Σ − 2 − N 2 S 2 T Σ − 2 ) = 0 N Σ − N 1 S 1 − N 2 S 2 = 0 Σ ^ = N 1 S 1 + N 2 S 2 N \frac{\partial ①+②}{\partial \Sigma}=-\frac{1}{2}[N\frac{1}{|\Sigma |}|\Sigma |\Sigma^{-1}+N_{1}\frac{\partial tr(\Sigma ^{-1}S_{1})}{\partial \Sigma}+N_{2}\frac{\partial tr(\Sigma ^{-1}S_{2})}{\partial \Sigma}]\\ =-\frac{1}{2}[N\Sigma^{-1}+N_{1}S_{1}^{T}(-1)\Sigma ^{-2}+N_{2}S_{2}^{T}(-1)\Sigma ^{-2}]\\ =-\frac{1}{2}(N\Sigma^{-1}-N_{1}S_{1}^{T}\Sigma ^{-2}-N_{2}S_{2}^{T}\Sigma ^{-2})\\ =0\\ N\Sigma-N_{1}S_{1}-N_{2}S_{2}=0\\ \hat{\Sigma}=\frac{N_{1}S_{1}+N_{2}S_{2}}{N} Σ+=21[NΣ1ΣΣ1+N1Σtr(Σ1S1)+N2Σtr(Σ1S2)]=21[NΣ1+N1S1T(1)Σ2+N2S2T(1)Σ2]=21(NΣ1N1S1TΣ2N2S2TΣ2)=0NΣN1S1N2S2=0Σ^=NN1S1+N2S2

六、朴素贝叶斯

  1. 概述

假设有如下数据:

{ ( x i , y i ) } i = 1 N , x i ∈ R p , y i ∈ { 0 , 1 } \left \{(x_{i},y_{i})\right \}_{i=1}^{N},x_{i}\in \mathbb{R}^{p},y_{i}\in \left \{0,1\right \} {(xi,yi)}i=1N,xiRp,yi{0,1}

  1. 朴素贝叶斯的模型

朴素贝叶斯分类器可以用来做多分类,其基本思想是条件独立性假设,即假设数据的每个特征之间是相互独立的,其形式化表达为

对 于 x ∣ y 来 说 x i ∣ y 与 x j ∣ y 是 相 互 独 立 的 ( i ≠ j ) , 即 P ( x ∣ y ) = ∏ i = 1 p P ( x i ∣ y ) 对于x|y来说x^{i}|y与x^{j}|y是相互独立的(i\neq j),即\\ P(x|y)=\prod_{i=1}^{p}P(x^{i}|y) xyxiyxjyi=jP(xy)=i=1pP(xiy)

朴素贝叶斯分类器是最简单的概率图模型(有向图):

概率图

给定 x x x,判断 y y y的类别可以通过以下方法,即将 x x x归为类别的概率中最大的一类:

y ^ = a r g m a x y P ( y ∣ x ) = a r g m a x y P ( x , y ) P ( x ) = a r g m a x y P ( y ) P ( x ∣ y ) P ( x ) = a r g m a x y P ( y ) P ( x ∣ y ) \hat{y}=\underset{y}{argmax}P(y|x)\\ =\underset{y}{argmax}\frac{P(x,y)}{P(x)}\\ =\underset{y}{argmax}\frac{P(y)P(x|y)}{P(x)}\\ =\underset{y}{argmax}P(y)P(x|y) y^=yargmaxP(yx)=yargmaxP(x)P(x,y)=yargmaxP(x)P(y)P(xy)=yargmaxP(y)P(xy)

P ( y ) P(y) P(y)是先验概率,如果有两类则服从伯努利分布(Bernoulli distribution),如果有多类则服从类别分布(Categorical distribution)。 P ( x ∣ y ) P(x|y) P(xy)则符合条件独立性假设 P ( x ∣ y ) = ∏ i = 1 p P ( x i ∣ y ) P(x|y)=\prod_{i=1}^{p}P(x^{i}|y) P(xy)=i=1pP(xiy),其中对于 x i x^{i} xi,如果 x i x^{i} xi是离散的,则可以认为其服从类别分布(Categorical distribution),如果 x i x^{i} xi是连续的,则可以认为其服从高斯分布(Gaussian distribution)。

至于其求解过程则可以根据具体情况使用极大似然估计法即可。对于朴素贝叶斯方法重要的是理解其条件独立性假设,这个假设也是其被称为“朴素(Naive)”的原因。

参考资料

ref:李航《统计学习方法》

公众号同步更新


微信公众号


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值