Classification
简介
定义:输入一个 x x x,输出 x x x属于哪一种类
- x ⇒ F u n c t i o n ⇒ C l a s s n x \Rightarrow Function \Rightarrow Class\ n x⇒Function⇒Class n
应用场景:
- 金融:输入:存款、收入、职位、年龄……输出:贷款 o r or or拒绝。
- 医疗诊断:输入:症状、年龄、性别……输出:得了什么病。
- 手写识别:输入:图像。输出:是哪个字
- 人脸识别:输入:人脸图像。输出:是哪个人。
- 宝可梦识别:输入:物攻、特攻、生命、物防、特防……输出:这是哪个宝可梦。
不能用Regression做Classification,因为两者评价方法不一样。
一种解法
用类似贝叶斯公式的方法测算概率。
对training data求正态分布,然后用来预测。
f
μ
,
Σ
=
1
(
2
π
)
D
/
2
⋅
1
∣
Σ
∣
1
/
2
e
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
f_{μ,Σ}=\frac{1}{(2π)^{D/2}}·\frac{1}{|Σ|^{1/2}}e^{-\frac{1}{2}(x-μ)^TΣ^{-1}(x-μ)}
fμ,Σ=(2π)D/21⋅∣Σ∣1/21e−21(x−μ)TΣ−1(x−μ)
如何求
μ
μ
μ和
Σ
Σ
Σ?
L
(
μ
,
Σ
)
=
f
μ
,
Σ
(
x
1
)
f
μ
,
Σ
(
x
2
)
.
.
.
f
μ
,
Σ
(
x
m
)
L(μ,Σ)=f_{μ,Σ}(x^{1})f_{μ,Σ}(x^{2})...f_{μ,Σ}(x^{m})
L(μ,Σ)=fμ,Σ(x1)fμ,Σ(x2)...fμ,Σ(xm)
要求
(
μ
∗
,
Σ
∗
)
(μ^*,Σ^*)
(μ∗,Σ∗)使
L
(
μ
,
Σ
)
L(μ,Σ)
L(μ,Σ)最大,即:
- ( μ ∗ , Σ ∗ ) = a r g m a x μ , Σ L ( μ , Σ ) (μ^*,Σ^*)=arg\ max_{μ,Σ}L(μ,Σ) (μ∗,Σ∗)=arg maxμ,ΣL(μ,Σ)
- μ ∗ = 1 79 ∑ n = 1 79 x n , Σ ∗ = 1 79 ∑ n = 1 79 ( x n − μ ∗ ) ( x n − μ ∗ ) T μ^*=\frac{1}{79}\sum_{n=1}^{79}{x_n},Σ^*=\frac{1}{79}\sum_{n=1}{79}{(x_n-μ^*)(x_n-μ^*)^T} μ∗=791∑n=179xn,Σ∗=791∑n=179(xn−μ∗)(xn−μ∗)T
然后就可以进行Classification:
- P ( C 1 ∣ x ) = P ( x ∣ C 1 ) P ( C 1 ) P ( x ∣ C 1 ) P ( C 1 ) + P ( x ∣ C 2 ) P ( C 2 ) , i f P ( C 1 ∣ x ) > 0.5 , t h e n x b e l o n g s t o c l a s s 1 P(C_1|x)=\frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)},if\ P(C_1|x)>0.5,then\ x\ belongs\ to\ class1 P(C1∣x)=P(x∣C1)P(C1)+P(x∣C2)P(C2)P(x∣C1)P(C1),if P(C1∣x)>0.5,then x belongs to class1
改进
不同的Class可以共用一组covariance(Σ)。原因:如果Σ太多,会导致参数太多,容易出现过拟合的情况。
找到
μ
1
,
μ
2
,
Σ
μ_1,μ_2,Σ
μ1,μ2,Σ来最大化
L
(
μ
1
,
μ
2
,
Σ
)
L(μ_1,μ_2,Σ)
L(μ1,μ2,Σ)
L
(
μ
1
,
μ
2
,
Σ
)
=
f
μ
1
,
Σ
(
x
1
)
f
μ
1
,
Σ
(
x
2
)
.
.
.
f
μ
1
,
Σ
(
x
79
)
f
μ
2
,
Σ
(
x
80
)
f
μ
2
,
Σ
(
x
81
)
.
.
.
f
μ
2
,
Σ
(
x
140
)
L(μ_1,μ_2,Σ)=f_{μ_1,Σ}(x_1)f_{μ_1,Σ}(x_2)...f_{μ_1,Σ}(x_{79})f_{μ_2,Σ}(x_{80})f_{μ_2,Σ}(x_{81})...f_{μ_2,Σ}(x_{140})
L(μ1,μ2,Σ)=fμ1,Σ(x1)fμ1,Σ(x2)...fμ1,Σ(x79)fμ2,Σ(x80)fμ2,Σ(x81)...fμ2,Σ(x140)
μ
1
,
μ
2
μ_1,μ_2
μ1,μ2与之前一样,
Σ
=
79
140
Σ
1
+
61
140
Σ
2
Σ=\frac{79}{140}Σ_1+\frac{61}{140}Σ_2
Σ=14079Σ1+14061Σ2
其他情况
很多情况下使用正态分布就可以了,但有时正态分布并不能满足需求,如:
B i n a r i y f e a t u r e Binariy feature Binariyfeature(二元特征),比如判断一个宝可梦是不是神兽。
如果假设所有dimensions都是独立的,这个方法叫做Naive Bayes Classifier。
Posterior Probability
P
(
C
1
∣
x
)
=
P
(
x
∣
C
1
)
P
(
C
1
)
P
(
x
∣
C
1
)
P
(
C
1
)
+
P
(
x
∣
C
2
)
P
(
C
2
)
=
1
1
+
P
(
x
∣
C
2
)
P
(
C
2
)
P
(
x
∣
C
1
)
P
(
C
1
)
=
σ
(
z
)
P(C_1|x)=\frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)}=\frac{1}{1+\frac{P(x|C_2)P(C_2)}{P(x|C_1)P(C_1)}}=σ(z)
P(C1∣x)=P(x∣C1)P(C1)+P(x∣C2)P(C2)P(x∣C1)P(C1)=1+P(x∣C1)P(C1)P(x∣C2)P(C2)1=σ(z)称此函数为
s
i
g
m
o
i
d
f
u
n
c
t
i
o
n
sigmoid\ function
sigmoid function
设
z
=
l
n
P
(
x
∣
C
1
)
P
(
C
1
)
P
(
x
∣
C
2
)
P
(
C
2
)
z=ln\frac{P(x|C_1)P(C_1)}{P(x|C_2)P(C_2)}
z=lnP(x∣C2)P(C2)P(x∣C1)P(C1),
P
(
C
1
∣
x
)
=
1
1
+
e
−
2
P(C_1|x)=\frac{1}{1+e^{-2}}
P(C1∣x)=1+e−21
z
=
l
n
P
(
x
∣
C
1
)
P
(
x
∣
C
2
)
+
l
n
P
(
C
1
)
P
(
C
2
)
=
l
n
P
(
x
∣
C
1
)
P
(
x
∣
C
2
)
+
l
n
N
1
N
2
z=ln\frac{P(x|C_1)}{P(x|C_2)}+ln\frac{P(C_1)}{P(C_2)}=ln\frac{P(x|C_1)}{P(x|C_2)}+ln\frac{N_1}{N_2}
z=lnP(x∣C2)P(x∣C1)+lnP(C2)P(C1)=lnP(x∣C2)P(x∣C1)+lnN2N1
P
(
x
∣
C
1
)
=
1
(
2
π
)
D
/
2
⋅
1
∣
Σ
1
∣
1
/
2
e
−
1
2
(
x
−
μ
1
)
T
Σ
1
−
1
(
x
−
μ
1
)
P(x|C_1)=\frac{1}{(2π)^{D/2}}·\frac{1}{|Σ_1|^{1/2}}e^{-\frac{1}{2}(x-μ_1)^TΣ_1^{-1}(x-μ_1)}
P(x∣C1)=(2π)D/21⋅∣Σ1∣1/21e−21(x−μ1)TΣ1−1(x−μ1)
P
(
x
∣
C
2
)
=
1
(
2
π
)
D
/
2
⋅
1
∣
Σ
2
∣
1
/
2
e
−
1
2
(
x
−
μ
2
)
T
Σ
2
−
1
(
x
−
μ
2
)
P(x|C_2)=\frac{1}{(2π)^{D/2}}·\frac{1}{|Σ_2|^{1/2}}e^{-\frac{1}{2}(x-μ_2)^TΣ_2^{-1}(x-μ_2)}
P(x∣C2)=(2π)D/21⋅∣Σ2∣1/21e−21(x−μ2)TΣ2−1(x−μ2)
相除得到
l
n
∣
Σ
1
∣
1
/
2
∣
Σ
2
∣
1
/
2
e
−
1
2
(
x
−
μ
1
)
T
Σ
1
−
1
(
x
−
μ
1
)
+
1
2
(
x
−
μ
2
)
T
Σ
2
−
1
(
x
−
μ
2
)
ln\frac{|Σ_1|^{1/2}}{|Σ_2|^{1/2}}e^{-\frac{1}{2}(x-μ_1)^TΣ_1^{-1}(x-μ_1)+\frac{1}{2}(x-μ_2)^TΣ_2^{-1}(x-μ_2)}
ln∣Σ2∣1/2∣Σ1∣1/2e−21(x−μ1)TΣ1−1(x−μ1)+21(x−μ2)TΣ2−1(x−μ2)
但一般情况下,
Σ
1
=
Σ
2
=
Σ
Σ_1=Σ_2=Σ
Σ1=Σ2=Σ。
所以
z
=
(
μ
1
−
μ
2
)
T
Σ
−
1
x
−
1
2
μ
1
T
Σ
1
−
1
μ
1
+
1
2
μ
2
T
Σ
2
−
1
μ
2
+
l
n
N
1
N
2
=
w
T
x
+
b
z=(μ_1-μ_2)^TΣ^{-1}x-\frac{1}{2}μ_1^TΣ_1^{-1}μ_1+\frac{1}{2}μ_2^TΣ_2^{-1}μ_2+ln\frac{N_1}{N_2}=w^Tx+b
z=(μ1−μ2)TΣ−1x−21μ1TΣ1−1μ1+21μ2TΣ2−1μ2+lnN2N1=wTx+b
P
(
C
1
∣
x
)
=
σ
(
w
⋅
x
+
b
)
P(C_1|x)=σ(w·x+b)
P(C1∣x)=σ(w⋅x+b)
总结
In generative model,we estimate
N
1
,
N
2
,
μ
1
,
μ
2
,
Σ
N_1,N_2,μ_1,μ_2,Σ
N1,N2,μ1,μ2,Σ,Then,we have
w
w
w and
b
b
b.
但是,能否直接求出
w
w
w和
b
b
b呢?
请看下篇