文章目录
1 模式识别
- 简述模式的概念和他的直观特性
- 模式:是抽取自物体的信息集合,既包含空间部分,又包含时间部分。
- 直观特性:可观察性,可区分性,相似性
- 主要方法:
- 监督学习:概念驱动,归纳假说
- 无监督学习:数据驱动,演绎假说
- 模式分类的主要方法:
- 数据聚类:用某种相似性度量的方法将原始数据组织成有意义的和有用的各种数据集。是一种非监督学习的方法,解决方案是数据驱动的。
- 统计分类:基于概率统计模型得到各类别的特征向量的分布,以取得分类的方法。特征向量分布的获得是基于一个类别已知的训练样本集。是一种监督分类的方法,分类器是概念驱动的。
- 结构模式识别:该方法通过考虑识别对象的各部分之间的联系来达到识别分类的目的。(句法模式识别)
- 神经网络:由一系列互相联系的、相同的单元(神经元)组成。相互间的联系可以在不同的神经元之间传递增强或抑制信号。增强或抑制是通过调整神经元相互间联系的权重系数来(weight)实现。神经网络可以实现监督和非监督学习条件下的分类。
过拟合欠拟合
- 某研究者在会议上使用SVM,在如下情况下,如何才能使效果更好:
- 训练5%,验证误差10%,测试误差10%
- 欠拟合:换用复杂度高的模型
- 训练1%,验证误差10%,测试误差10%
- 过拟合:换复杂度低的模型
- 训练1%,验证误差3%,测试误差10%
- 测试数据与训练数据不是独立同分布的,更换测试数据集
- 训练5%,验证误差10%,测试误差10%
概率图
概率图-独立性
* P(x1,x2,x3,x4,x5,x6)=p(x1)p(x6)P(x2|x1)p(x3|x1,x6)P(x4|x3)p(x5|x2,x4)
*
p
(
x
1
,
x
2
,
x
3
,
x
6
)
=
Σ
x
4
Σ
x
5
P
(
x
1
,
x
2
,
x
3
,
x
4
,
x
5
,
x
6
)
=
p
(
x
1
)
p
(
x
6
)
P
(
x
2
∣
x
1
)
p
(
x
3
∣
x
1
,
x
6
)
Σ
x
4
P
(
x
4
∣
x
3
)
Σ
x
5
p
(
x
5
∣
x
2
,
x
4
)
=
p
(
x
1
)
p
(
x
6
)
P
(
x
2
∣
x
1
)
p
(
x
3
∣
x
1
,
x
6
)
p(x1,x2,x3,x6)=\Sigma_{x4}\Sigma_{x5}P(x1,x2,x3,x4,x5,x6)\\=p(x1)p(x6)P(x2|x1)p(x3|x1,x6)\Sigma_{x4}P(x4|x3)\Sigma_{x5}p(x5|x2,x4)\\=p(x1)p(x6)P(x2|x1)p(x3|x1,x6)
p(x1,x2,x3,x6)=Σx4Σx5P(x1,x2,x3,x4,x5,x6)=p(x1)p(x6)P(x2∣x1)p(x3∣x1,x6)Σx4P(x4∣x3)Σx5p(x5∣x2,x4)=p(x1)p(x6)P(x2∣x1)p(x3∣x1,x6)
*
Σ
x
5
p
(
x
5
∣
x
2
,
x
4
)
=
1
\Sigma_{x5}p(x5|x2,x4)=1
Σx5p(x5∣x2,x4)=1
*
P
(
x
1
,
x
2
,
x
3
,
x
4
,
x
6
)
=
Σ
x
5
P
(
x
1
,
x
2
,
x
3
,
x
4
,
x
5
,
x
6
)
=
p
(
x
1
)
p
(
x
6
)
P
(
x
2
∣
x
1
)
p
(
x
3
∣
x
1
,
x
6
)
P
(
x
4
∣
x
3
)
P(x1,x2,x3,x4,x6)=\Sigma_{x5}P(x1,x2,x3,x4,x5,x6)\\=p(x1)p(x6)P(x2|x1)p(x3|x1,x6)P(x4|x3)
P(x1,x2,x3,x4,x6)=Σx5P(x1,x2,x3,x4,x5,x6)=p(x1)p(x6)P(x2∣x1)p(x3∣x1,x6)P(x4∣x3)
*
P
(
x
4
∣
x
1
,
x
2
,
x
3
,
x
6
)
=
p
(
x
4
∣
x
3
)
−
−
−
所
以
给
定
x
3
,
x
4
和
x
6
独
立
,
和
x
1
/
x
2
/
x
6
均
独
立
P(x4|x1,x2,x3,x6)=p(x4|x3)---所以给定x3,x4和x6独立,和x1/x2/x6均独立
P(x4∣x1,x2,x3,x6)=p(x4∣x3)−−−所以给定x3,x4和x6独立,和x1/x2/x6均独立
HMM
- A:aij:i->j
- 前向计算
- 时间1:
- α ( y 1 = 1 ) = P ( x 1 ∣ y 1 = 1 ) π y 1 = 1 = 0.5 ∗ 0.2 = 0.1 ( x 1 = 红 ) α ( y 1 = 2 ) = P ( x 1 ∣ y 1 = 2 ) π y 1 = 2 = 0.4 ∗ 0.4 = 0.16 α ( y 1 = 3 ) = P ( x 1 ∣ y 1 = 3 ) π y 1 = 3 = 0.7 ∗ 0.4 = 0.28 \alpha(y_1=1)=P(x_1|y_1=1)\pi_{y_1=1}=0.5*0.2=0.1\\(x1=红) \alpha(y_1=2)=P(x_1|y_1=2)\pi_{y_1=2}=0.4*0.4=0.16 \alpha(y_1=3)=P(x_1|y_1=3)\pi_{y_1=3}=0.7*0.4=0.28 α(y1=1)=P(x1∣y1=1)πy1=1=0.5∗0.2=0.1(x1=红)α(y1=2)=P(x1∣y1=2)πy1=2=0.4∗0.4=0.16α(y1=3)=P(x1∣y1=3)πy1=3=0.7∗0.4=0.28
- 时间2:x2=白
- α ( y 2 = 1 ) = ( Σ y 1 α ( y 1 ) P ( y 2 = 1 ∣ y 1 ) ) P ( x 2 ∣ y 2 ) = ( 0.1 ∗ 0.5 + 0.16 ∗ 0.3 + 0.28 ∗ 0.2 ) ∗ 0.5 = 0.077 α ( y 2 = 2 ) = ( α ( y 1 = 1 ) P ( y 2 = 2 ∣ y 1 = 1 ) + α ( y 1 = 2 ) P ( y 2 = 2 ∣ y 1 = 2 ) + α ( y 1 = 3 ) P ( y 2 = 2 ∣ y 1 = 3 ) ) ∗ P ( x 2 ∣ y 2 = 2 ) = ( 0.1 ∗ 0.2 + 0.16 ∗ 0.5 + 0.28 ∗ 0.3 ) ∗ 0.6 = 0.1104 α ( y 2 = 3 ) = ( 0.1 ∗ 0.3 + 0.16 ∗ 0.2 + 0.28 ∗ 0.5 ) ∗ 0.3 = 0.0606 \alpha(y_2=1)=(\Sigma_{y_1}\alpha(y_1)P(y_2=1|y_1))P(x_2|y_2)=(0.1*0.5+0.16*0.3+0.28*0.2)*0.5=0.077\\ \alpha(y_2=2)=(\alpha(y_1=1)P(y_2=2|y_1=1)+\alpha(y_1=2)P(y_2=2|y_1=2)+\alpha(y_1=3)P(y_2=2|y_1=3))*P(x_2|y_2=2)=(0.1*0.2+0.16*0.5+0.28*0.3)*0.6=0.1104\\ \alpha(y_2=3)=(0.1*0.3+0.16*0.2+0.28*0.5)*0.3=0.0606 α(y2=1)=(Σy1α(y1)P(y2=1∣y1))P(x2∣y2)=(0.1∗0.5+0.16∗0.3+0.28∗0.2)∗0.5=0.077α(y2=2)=(α(y1=1)P(y2=2∣y1=1)+α(y1=2)P(y2=2∣y1=2)+α(y1=3)P(y2=2∣y1=3))∗P(x2∣y2=2)=(0.1∗0.2+0.16∗0.5+0.28∗0.3)∗0.6=0.1104α(y2=3)=(0.1∗0.3+0.16∗0.2+0.28∗0.5)∗0.3=0.0606
- 时间3:x3=红
- α ( y 3 = 1 ) = ( 0.077 ∗ 0.5 + 0.1104 ∗ 0.3 + 0.0606 ∗ 0.2 ) ∗ 0.5 = 0.4187 α ( y 3 = 2 ) = ( 0.077 ∗ 0.2 + 0.1104 ∗ 0.5 + 0.0606 ∗ 0.3 ) ∗ 0.4 = 0.03551 α ( y 3 = 3 ) = ( 0.077 ∗ 0.3 + 0.1104 ∗ 0.2 + 0.0606 ∗ 0.5 ) ∗ 0.7 = 0.05284 p ( x ) = Σ i α ( y T i ) = α ( y 3 = 1 ) + α ( y 3 = 2 ) + α ( y 3 = 3 ) = 0.13022 \alpha(y_3=1)=(0.077*0.5+0.1104*0.3+0.0606*0.2)*0.5=0.4187\\ \alpha(y_3=2)=(0.077*0.2+0.1104*0.5+0.0606*0.3)*0.4=0.03551\\ \alpha(y_3=3)=(0.077*0.3+0.1104*0.2+0.0606*0.5)*0.7=0.05284\\ p(x)=\Sigma_i \alpha(y_T^i)=\alpha(y_3=1)+\alpha(y_3=2)+\alpha(y_3=3)=0.13022 α(y3=1)=(0.077∗0.5+0.1104∗0.3+0.0606∗0.2)∗0.5=0.4187α(y3=2)=(0.077∗0.2+0.1104∗0.5+0.0606∗0.3)∗0.4=0.03551α(y3=3)=(0.077∗0.3+0.1104∗0.2+0.0606∗0.5)∗0.7=0.05284p(x)=Σiα(yTi)=α(y3=1)+α(y3=2)+α(y3=3)=0.13022
- 时间1:
- 后向计算:
- β ( y 3 = 1 ) = 1 , β ( y 3 = 2 ) = 1 , β ( y 3 = 3 ) = 1 \beta(y_3=1)=1,\beta(y_3=2)=1,\beta(y_3=3)=1 β(y3=1)=1,β(y3=2)=1,β(y3=3)=1
- 时间2
- β ( y 2 ) = Σ y 3 β ( y 3 ) a y 3 , y 2 P ( x 3 ∣ y 3 ) = β ( y 3 = 1 ) a y 3 = 1 , y 2 P ( x 3 ∣ y 3 = 1 ) + β ( y 3 = 2 ) a y 3 = 2 , y 2 P ( x 3 ∣ y 3 = 2 ) + β ( y 3 = 3 ) a y 3 , y 2 P ( x 3 ∣ y 3 = 3 ) \beta(y_2)=\Sigma_{y_3}\beta(y_3)a_{y_3,y_2}P(x_3|y_3)\\ =\beta(y_3=1)a_{y_3=1,y_2}P(x_3|y_3=1)+\beta(y_3=2)a_{y_3=2,y_2}P(x_3|y_3=2)+\beta(y_3=3)a_{y_3,y_2}P(x_3|y_3=3) β(y2)=Σy3β(y3)ay3,y2P(x3∣y3)=β(y3=1)ay3=1,y2P(x3∣y3=1)+β(y3=2)ay3=2,y2P(x3∣y3=2)+β(y3=3)ay3,y2P(x3∣y3=3)
- β ( y 2 = 1 ) = 1 ∗ 0.5 ∗ 0.5 + 1 ∗ 0.2 ∗ 0.4 + 1 ∗ 0.2 ∗ 0.7 = 0.47 \beta(y_2=1)=1*0.5*0.5+1*0.2*0.4+1*0.2*0.7=0.47 β(y2=1)=1∗0.5∗0.5+1∗0.2∗0.4+1∗0.2∗0.7=0.47
- β ( y 2 = 2 ) = 1 ∗ 0.3 ∗ 0.5 + 1 ∗ 0.5 ∗ 0.4 + 1 ∗ 0.2 ∗ 0.7 = 0.49 \beta(y_2=2)=1*0.3*0.5+1*0.5*0.4+1*0.2*0.7=0.49 β(y2=2)=1∗0.3∗0.5+1∗0.5∗0.4+1∗0.2∗0.7=0.49
- β ( y 2 = 3 ) = 1 ∗ 0.2 ∗ 0.5 + 1 ∗ 0.3 ∗ 0.4 + 1 ∗ 0.5 ∗ 0.7 = 0.57 \beta(y_2=3)=1*0.2*0.5+1*0.3*0.4+1*0.5*0.7=0.57 β(y2=3)=1∗0.2∗0.5+1∗0.3∗0.4+1∗0.5∗0.7=0.57
- 时间1
- β ( y 2 = 1 ) = 0.47 ∗ 0.5 ∗ 0.5 + 0.49 ∗ 0.2 ∗ 0.6 + 0.57 ∗ 0.2 ∗ 0.3 = 0.2105 \beta(y_2=1)=0.47*0.5*0.5+0.49*0.2*0.6+0.57*0.2*0.3=0.2105 β(y2=1)=0.47∗0.5∗0.5+0.49∗0.2∗0.6+0.57∗0.2∗0.3=0.2105
- β ( y 2 = 2 ) = 0.47 ∗ 0.3 ∗ 0.5 + 0.49 ∗ 0.5 ∗ 0.6 + 0.57 ∗ 0.2 ∗ 0.3 = 0.2517 \beta(y_2=2)=0.47*0.3*0.5+0.49*0.5*0.6+0.57*0.2*0.3=0.2517 β(y2=2)=0.47∗0.3∗0.5+0.49∗0.5∗0.6+0.57∗0.2∗0.3=0.2517
-
β
(
y
2
=
3
)
=
0.47
∗
0.2
∗
0.5
+
0.49
∗
0.3
∗
0.6
+
0.57
∗
0.5
∗
0.3
=
0.2207
\beta(y_2=3)=0.47*0.2*0.5+0.49*0.3*0.6+0.57*0.5*0.3=0.2207
β(y2=3)=0.47∗0.2∗0.5+0.49∗0.3∗0.6+0.57∗0.5∗0.3=0.2207
- 求最优路径(维特比,贪心)
- δ ( y 1 ) = α ( y 1 ) = P ( x 1 ∣ y 1 ) π y 1 \delta(y_1)=\alpha(y_1)=P(x_1|y_1)\pi_{y_1} δ(y1)=α(y1)=P(x1∣y1)πy1
- δ ( y t + 1 ) = m a x y 1 δ ( y 1 ) P ( y 2 = 1 ∣ y 1 ) ) P ( x 2 ∣ y 2 ) = m a x ( δ ( y 1 = 1 ) P ( y 2 = 2 ∣ y 1 = 1 ) , δ ( y 1 = 2 ) P ( y 2 = 2 ∣ y 1 = 2 ) , δ ( y 1 = 3 ) P ( y 2 = 2 ∣ y 1 = 3 ) ) ∗ P ( x 2 ∣ y 2 = 1 ) \delta(y_{t+1})=max_{y_1}\delta(y_1)P(y_2=1|y_1))P(x_2|y_2)=max(\delta(y_1=1)P(y_2=2|y_1=1),\delta(y_1=2)P(y_2=2|y_1=2),\delta(y_1=3)P(y_2=2|y_1=3))*P(x_2|y_2=1) δ(yt+1)=maxy1δ(y1)P(y2=1∣y1))P(x2∣y2)=max(δ(y1=1)P(y2=2∣y1=1),δ(y1=2)P(y2=2∣y1=2),δ(y1=3)P(y2=2∣y1=3))∗P(x2∣y2=1)
- HMM(x–O)
- 则联合概率
P
(
x
,
y
)
=
p
(
y
1
)
Π
t
=
1
T
−
1
P
(
y
t
+
1
j
∣
y
t
i
)
Π
t
=
1
T
P
(
x
t
∣
y
t
)
P(x,y)=p(y_1)\Pi_{t=1}^{T-1}P(y_{t+1}^j|y_t^i)\Pi_{t=1}^{T}P(x_t|y_t)
P(x,y)=p(y1)Πt=1T−1P(yt+1j∣yti)Πt=1TP(xt∣yt)
- 参数化 P ( x , y ) = π y 1 Π t = 1 T − 1 a y t + 1 , y t Π t = 1 T P ( x t ∣ y t ) P(x,y)=\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t) P(x,y)=πy1Πt=1T−1ayt+1,ytΠt=1TP(xt∣yt)
- P ( x ) = Σ y 1 , y 2 , . . . , y T P ( x , y ) = Σ y 1 , y 2 , . . . , y T π y 1 Π t = 1 T − 1 a y t + 1 , y t Π t = 1 T P ( x t ∣ y t ) = Σ y P ( x ∣ y ) p ( y ) = Σ y 1 Σ y 2 . . . Σ y T π y 1 Π t = 1 T − 1 a y t + 1 , y t Π t = 1 T P ( x t ∣ y t ) P(x)=\Sigma_{y_1,y_2,...,y_T} P(x,y)=\Sigma_{y_1,y_2,...,y_T}\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t)\\=\Sigma_y P(x|y)p(y)\\=\Sigma_{y_1}\Sigma_{y_2}...\Sigma_{y_T}\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t) P(x)=Σy1,y2,...,yTP(x,y)=Σy1,y2,...,yTπy1Πt=1T−1ayt+1,ytΠt=1TP(xt∣yt)=ΣyP(x∣y)p(y)=Σy1Σy2...ΣyTπy1Πt=1T−1ayt+1,ytΠt=1TP(xt∣yt)
- P ( y t ∣ x ) = γ ( y t ) = P ( x 1 , . . . , x t , y t ) P ( x t + 1 , . . . , x n ∣ y t ) P ( x ) = α ( y t ) β ( y t ) P ( x ) P(y_t|x)=\gamma(y_t)=\frac{P(x1,...,x_t,y_t)P(x_{t+1},...,x_n|y_t)}{P(x)}=\frac{\alpha(y_t)\beta(y_t)}{P(x)} P(yt∣x)=γ(yt)=P(x)P(x1,...,xt,yt)P(xt+1,...,xn∣yt)=P(x)α(yt)β(yt)
- 递归的计算
-
α
(
y
t
+
1
)
=
Σ
y
t
α
(
y
t
)
a
y
t
+
1
,
y
t
P
(
x
t
+
1
∣
y
t
+
1
)
\alpha(y_{t+1})=\Sigma_{y_t}\alpha(y_t)a_{y_{t+1},y_t}P(x_{t+1}|y_{t+1})
α(yt+1)=Σytα(yt)ayt+1,ytP(xt+1∣yt+1)
- 初始化 α ( y 0 ) = P ( x 0 , y 0 ) = p ( x 0 ∣ y 0 ) P ( y 0 ) = P ( x 0 ∣ y 0 ) π y 0 \alpha(y_0)=P(x_0,y_0)=p(x_0|y_0)P(y_0)=P(x_0|y_0)\pi_{y_0} α(y0)=P(x0,y0)=p(x0∣y0)P(y0)=P(x0∣y0)πy0
-
β
(
y
t
)
=
Σ
y
t
+
1
β
(
y
t
+
1
)
a
y
t
+
1
,
y
t
P
(
x
t
+
1
∣
y
t
+
1
)
\beta(y_{t})=\Sigma_{y_{t+1}}\beta(y_{t+1})a_{y_{t+1},y_t}P(x_{t+1}|y_{t+1})
β(yt)=Σyt+1β(yt+1)ayt+1,ytP(xt+1∣yt+1)
- 初始化
β
(
y
T
)
=
1
就
行
了
\beta(y_T)=1就行了
β(yT)=1就行了
-
假
定
β
(
y
T
)
为
单
位
向
量
,
我
们
可
以
准
确
计
算
出
β
y
T
−
1
假定\beta(y_T)为单位向量,我们可以准确计算出\beta_{y_{T-1}}
假定β(yT)为单位向量,我们可以准确计算出βyT−1
- P ( x ) = Σ i α ( y T i ) β ( y T i ) = Σ i α ( y T i ) = P ( x ) P(x)=\Sigma_i\alpha(y_T^i)\beta(y_T^i)=\Sigma_i \alpha(y_T^i)=P(x) P(x)=Σiα(yTi)β(yTi)=Σiα(yTi)=P(x)
-
假
定
β
(
y
T
)
为
单
位
向
量
,
我
们
可
以
准
确
计
算
出
β
y
T
−
1
假定\beta(y_T)为单位向量,我们可以准确计算出\beta_{y_{T-1}}
假定β(yT)为单位向量,我们可以准确计算出βyT−1
- 初始化
β
(
y
T
)
=
1
就
行
了
\beta(y_T)=1就行了
β(yT)=1就行了
-
α
(
y
t
+
1
)
=
Σ
y
t
α
(
y
t
)
a
y
t
+
1
,
y
t
P
(
x
t
+
1
∣
y
t
+
1
)
\alpha(y_{t+1})=\Sigma_{y_t}\alpha(y_t)a_{y_{t+1},y_t}P(x_{t+1}|y_{t+1})
α(yt+1)=Σytα(yt)ayt+1,ytP(xt+1∣yt+1)
- 则联合概率
P
(
x
,
y
)
=
p
(
y
1
)
Π
t
=
1
T
−
1
P
(
y
t
+
1
j
∣
y
t
i
)
Π
t
=
1
T
P
(
x
t
∣
y
t
)
P(x,y)=p(y_1)\Pi_{t=1}^{T-1}P(y_{t+1}^j|y_t^i)\Pi_{t=1}^{T}P(x_t|y_t)
P(x,y)=p(y1)Πt=1T−1P(yt+1j∣yti)Πt=1TP(xt∣yt)
哲学理论
- (1)随便猜测作为一个分类算法是否一定比SVM差?借此阐述你对“no free lunch theorem”的理解(2)举例阐述你对“Occam’s razor"的理解
- (1):不一定,在没有先验的情况下,无法得知一个算法是否比另一个算法更好。
- (2)简单的就是最好的:训练数据来自添加高斯噪声的 y = s i n x ( x ∈ [ 0 , 2 π ] ) y=sinx(x \in [0,2\pi]) y=sinx(x∈[0,2π]),使用不同的多项式拟合,三次的效果最佳,在同等训练错误率的条件下,简单模型具有更小的方差,又有更好的泛化能力。(复杂模型方差大,偏差小)
-
- 丑小鸭定理:
- 丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大
- 世界上不存在分类的客观标准,一切分类的标准都是主观的
- (有假设的)
- (无假设的前提下)没有最优的特征
- 丑小鸭定理:
adaboost
- Adaboost的原理并给出算法,并解释为什么adaboost经常可以在训练误差为0后继续训练还能带来测试误差的继续下降?
- adaboost原理:通过多个弱学习器的组合,得到一个强分类器,每次训练弱分类器后,对分类错误的样本增加权重使得后续分类器更加”关注“分类错误的样本,以提升分类效果。
- 算法: { x i , y i } i = 1 n D i 1 = 1 / n f o r i t o T : 对 每 个 分 类 器 训 练 弱 分 类 器 , 给 各 样 本 加 权 重 D i t + 1 = D i t ∗ e − α t y i h t ( x i ) h t ( x ) 为 第 t 个 分 类 器 ; α t = 1 2 l n 1 − ϵ t ϵ t > 0 ; 错 误 率 ϵ = P ( h ( x ) ≠ y ) < 0.5 H f i n a l ( x ) = s i g n ( Σ t = 1 n α t h t ( x ) ) \{x_i,y_i\}_{i=1}^n\\D^1_i=1/n\\for i to T:对每个分类器\\训练弱分类器,给各样本加权重\\D_i^{t+1}=D_i^{t}*e^{-\alpha_ty_ih_t(x_i)}\\h_t(x)为第t个分类器;\alpha_t=\frac{1}{2}ln\frac{1-\epsilon_t}{\epsilon_t}>0;错误率\epsilon=P(h(x)\neq y)<0.5\\H_{final}(x)=sign(\Sigma_{t=1}^n\alpha_th_t(x)) {xi,yi}i=1nDi1=1/nforitoT:对每个分类器训练弱分类器,给各样本加权重Dit+1=Dit∗e−αtyiht(xi)ht(x)为第t个分类器;αt=21lnϵt1−ϵt>0;错误率ϵ=P(h(x)=y)<0.5Hfinal(x)=sign(Σt=1nαtht(x))
- 训练误差为0后,adaboost会继续增大分类间距,提升模型的泛化能力,减少测试误差
贝叶斯
贝叶斯判别
贝叶斯判别-正态分布
- 贝叶斯判别: p ( w i ∣ x ) = p ( x ∣ w 1 ) p ( w 1 ) Σ i = 1 2 p ( x ∣ w i ) p ( w i ) , 哪 个 大 属 于 哪 一 类 p(wi|x)= {{p(x|w1)p(w1)} \over {\Sigma_{i=1}^2 p(x|wi)p(wi)}},哪个大属于哪一类 p(wi∣x)=Σi=12p(x∣wi)p(wi)p(x∣w1)p(w1),哪个大属于哪一类
- 模式类别具有正态概率密度函数
p
(
x
∣
w
i
)
=
1
(
2
π
)
n
/
2
∣
C
i
∣
1
/
2
e
x
p
{
−
1
2
(
x
−
m
i
)
T
C
i
−
1
(
x
−
m
i
)
}
p(x|w_i) ={{1} \over {(2\pi)^{n/2}|C_i|^{1/2}}} exp\{ -{{1} \over {2}}(x-m_i)^TC_i^{-1}(x-m_i)\}
p(x∣wi)=(2π)n/2∣Ci∣1/21exp{−21(x−mi)TCi−1(x−mi)}—一个类别一个,n-n维度
- C i = ( x − m i ) ( x − m i ) T C_i=(x-m_i)(x-m_i)^T Ci=(x−mi)(x−mi)T–>x是一列一个样本的,C最终是个33的,m是31的列向量
- 均值就用均值求,方差就用协方差矩阵求(由贝叶斯估计、极大似然估计都可以得到)
- 判别面:第i类的 f ( x ) 常 数 , g i ( x ) = l n p ( x ∣ w i ) + l n p ( w i ) = l n p ( w i ) − 1 2 l o g ∣ C i ∣ − 1 2 ( x − m i ) T C i − 1 ( x − m i ) f(x)常数,g_i(x)=lnp(x|w_i)+lnp(w_i)\\=lnp(w_i)-\frac{1}{2}log|C_i|-\frac{1}{2}(x-m_i)^TC_i^{-1}(x-m_i) f(x)常数,gi(x)=lnp(x∣wi)+lnp(wi)=lnp(wi)−21log∣Ci∣−21(x−mi)TCi−1(x−mi)
- 二分类的界面: g 1 ( x ) − g 2 ( x ) = l n p ( w 1 ) + l n p ( w 2 ) − 1 2 l o g ∣ C 1 ∣ − 1 2 ( x − m 1 ) T C 1 − 1 ( x − m 1 ) + 1 2 l o g ∣ C 2 ∣ + 1 2 ( x − m 2 ) T C 2 − 1 ( x − m 2 ) g_1(x)-g_2(x)=lnp(w_1)+lnp(w_2)-\frac{1}{2}log|C_1|-\frac{1}{2}(x-m_1)^TC_1^{-1}(x-m_1)+\frac{1}{2}log|C_2|+\frac{1}{2}(x-m_2)^TC_2^{-1}(x-m_2) g1(x)−g2(x)=lnp(w1)+lnp(w2)−21log∣C1∣−21(x−m1)TC1−1(x−m1)+21log∣C2∣+21(x−m2)TC2−1(x−m2)
- 二分类的界面(C1=C2=C): g 1 ( x ) − g 2 ( x ) = l n p ( w 1 ) − l n p ( w 2 ) − 1 2 ( x − m 1 ) T C 1 − 1 ( x − m 1 ) + 1 2 ( x − m 2 ) T C 2 − 1 ( x − m 2 ) = l n p ( w 1 ) − l n p ( w 2 ) + ( m 1 − m 2 ) T C − 1 x − 1 2 m 1 T C − 1 m 1 + 1 2 m 2 T C − 1 m 2 = 0 g_1(x)-g_2(x)=lnp(w_1)-lnp(w_2)-\frac{1}{2}(x-m_1)^TC_1^{-1}(x-m_1)+\frac{1}{2}(x-m_2)^TC_2^{-1}(x-m_2)\\=lnp(w_1)-lnp(w_2)+(m_1-m_2)^TC^{-1}x-\frac{1}{2}m_1^TC^{-1}m_1+\frac{1}{2}m_2^TC^{-1}m_2=0 g1(x)−g2(x)=lnp(w1)−lnp(w2)−21(x−m1)TC1−1(x−m1)+21(x−m2)TC2−1(x−m2)=lnp(w1)−lnp(w2)+(m1−m2)TC−1x−21m1TC−1m1+21m2TC−1m2=0
- X 1 = [ 0 1 1 1 0 0 0 1 0 0 1 0 ] X1=\left[ \begin{matrix}0&1&1&1\\0&0&0&1\\0&0&1&0& \end{matrix} \right] X1=⎣⎡000100101110⎦⎤–一列一个样本,一行一个维度
- X 2 = [ 0 0 0 1 1 1 0 1 0 1 1 1 ] X2=\left[ \begin{matrix}0&0&0&1\\1&1&0&1\\0&1&1&1& \end{matrix} \right] X2=⎣⎡010011001111⎦⎤
- m 1 = 1 4 ( 3 , 1 , 1 ) T , m 2 = 1 4 ( 1 , 3 , 3 ) T m1=\frac{1}{4}(3,1,1)^T,m_2=\frac{1}{4}(1,3,3)^T m1=41(3,1,1)T,m2=41(1,3,3)T
- C 1 = ( X 1 − m 1 ) ( X 1 − m 1 ) T = 1 16 [ 12 4 4 4 12 − 4 4 − 4 12 ] C 2 = ( X 2 − m 2 ) ( X 2 − m 2 ) T = 1 16 [ 12 4 4 4 12 − 4 4 − 4 12 ] C = C 1 = C 2 C_1=(X1-m1)(X1-m1)^T=\frac{1}{16}\left[ \begin{matrix}12&4&4\\4&12&-4\\4&-4&12 \end{matrix} \right]\\C2=(X2-m2)(X2-m2)^T=\frac{1}{16}\left[ \begin{matrix}12&4&4\\4&12&-4\\4&-4&12 \end{matrix} \right]\\C=C1=C2 C1=(X1−m1)(X1−m1)T=161⎣⎡1244412−44−412⎦⎤C2=(X2−m2)(X2−m2)T=161⎣⎡1244412−44−412⎦⎤C=C1=C2
贝叶斯估计
- 图 中 σ − > σ 2 图中\sigma->\sigma^2 图中σ−>σ2
- p ( β ∣ y ) = p ( y ∣ β ) p ( β ) p ( y ) p(\beta|y)=\frac{p(y|\beta)p(\beta)}{p(y)} p(β∣y)=p(y)p(y∣β)p(β)
- p ( y ∣ β ) = 1 ( 2 π ) n / 2 ∣ σ 2 I ∣ 1 / 2 e x p { − 1 2 ( y − X β ) T ( σ 2 I ) − 1 ( y − X β ) } p ( β ) = 1 ( 2 π ) n / 2 ∣ τ I ∣ 1 / 2 e x p { − 1 2 ( β ) T ( τ I ) − 1 ( β ) } p(y|\beta)={{1} \over {(2\pi)^{n/2}|\sigma^2I|^{1/2}}} exp\{ -{{1} \over {2}}(y-X\beta)^T(\sigma^2I)^{-1}(y-X\beta)\}\\ p(\beta)={{1} \over {(2\pi)^{n/2}|\tau I|^{1/2}}} exp\{ -{{1} \over {2}}(\beta)^T(\tau I)^{-1}(\beta)\} p(y∣β)=(2π)n/2∣σ2I∣1/21exp{−21(y−Xβ)T(σ2I)−1(y−Xβ)}p(β)=(2π)n/2∣τI∣1/21exp{−21(β)T(τI)−1(β)}
- l o g p ( β ∣ y ) = l o g ( p ( y ∣ β ) + l o g p ( β ) + C = − 1 2 σ 2 ( y − X β ) 2 − 1 2 τ ∣ ∣ β ∣ ∣ 2 + C ′ = − 1 2 σ 2 ( ( y − X β ) 2 + σ 2 τ ∣ ∣ β ∣ ∣ 2 ) log p(\beta|y)=log(p(y|\beta)+logp(\beta)+C\\=-\frac{1}{2\sigma^2}(y-X\beta)^2-\frac{1}{2\tau}||\beta||^2+C'\\ =-\frac{1}{2\sigma^2}((y-X\beta)^2+\frac{\sigma^2}{\tau}||\beta||^2) logp(β∣y)=log(p(y∣β)+logp(β)+C=−2σ21(y−Xβ)2−2τ1∣∣β∣∣2+C′=−2σ21((y−Xβ)2+τσ2∣∣β∣∣2)
贝叶斯决策
- 最小错误率就是最普通的贝叶斯决策 I 12 = p ( x ∥ w 1 ) p ( x ∥ w 2 ) > p ( w 2 ) p ( w 1 ) , 分 界 面 为 d ( x ) = p ( x ∥ w 1 ) p ( x ∥ w 2 ) − p ( w 2 ) p ( w 1 ) I_{12}= {{p(x\|w1)} \over {p(x\|w2)}} >{ {p(w2)} \over {p(w1)}},分界面为d(x)= {{p(x\|w1)} \over {p(x\|w2)}}-{ {p(w2)} \over {p(w1)}} I12=p(x∥w2)p(x∥w1)>p(w1)p(w2),分界面为d(x)=p(x∥w2)p(x∥w1)−p(w1)p(w2)
- 最小风险的贝叶斯决策 r 1 = λ 11 p ( x ∣ w 1 ) p ( w 1 ) + λ 12 p ( x ∣ w 2 ) p ( w 2 ) r 2 = λ 21 p ( x ∣ w 1 ) p ( w 1 ) + λ 22 p ( x ∣ w 2 ) p ( w 2 ) r 1 > r 2 = > ( λ 11 − λ 21 ) p ( x ∣ w 1 ) p ( w 1 ) + ( λ 12 − λ 22 ) p ( x ∣ w 2 ) p ( w 2 ) > 0 p ( x ∣ w 1 ) p ( x ∣ w 2 ) > ( λ 12 − λ 22 ) p ( w 2 ) ( λ 11 − λ 21 ) p ( w 1 ) 分 界 面 : d ( x ) = r 1 − r 2 r_1=\lambda_{11}p(x|w_1)p(w_1)+\lambda_{12}p(x|w_2)p(w_2)\\ r_2=\lambda_{21}p(x|w_1)p(w_1)+\lambda_{22}p(x|w_2)p(w_2)\\ r_1>r_2=>(\lambda_{11}-\lambda_{21})p(x|w_1)p(w_1)+(\lambda_{12}-\lambda_{22})p(x|w_2)p(w_2)>0\\ \frac{p(x|w_1)}{p(x|w_2)}>\frac{(\lambda_{12}-\lambda_{22})p(w_2)}{(\lambda_{11}-\lambda_{21})p(w_1)}\\分界面:d(x)=r1-r2 r1=λ11p(x∣w1)p(w1)+λ12p(x∣w2)p(w2)r2=λ21p(x∣w1)p(w1)+λ22p(x∣w2)p(w2)r1>r2=>(λ11−λ21)p(x∣w1)p(w1)+(λ12−λ22)p(x∣w2)p(w2)>0p(x∣w2)p(x∣w1)>(λ11−λ21)p(w1)(λ12−λ22)p(w2)分界面:d(x)=r1−r2
w1 | w2 | ------------阈值------------ | |
---|---|---|---|
p(wi|x)(max) | p(w1|x)>p(w2|x) | p(w1|x)>p(w2|x) | 1 |
p(x|wi)p(wi)(max) | p(x|w1)p(w1) > p(x|w2)p(w2) | p(x|w1)p(w1) < p(x|w2)p(w2) | 1 |
最小错误率 I 12 I_{12} I12似然比(分割) | I 12 = p ( x ∥ w 1 ) p ( x ∥ w 2 ) > p ( w 2 ) p ( w 1 ) I_{12}= {{p(x\|w1)} \over {p(x\|w2)}} >{ {p(w2)} \over {p(w1)}} I12=p(x∥w2)p(x∥w1)>p(w1)p(w2) | I 21 = p ( x ∥ w 1 ) p ( x ∥ w 2 ) < p ( w 2 ) p ( w 1 ) I_{21}={{p(x\|w1)} \over {p(x\|w2)}} < {{p(w2)} \over {p(w1)}} I21=p(x∥w2)p(x∥w1)<p(w1)p(w2) | θ 21 = p ( w 2 ) p ( w 1 ) \theta_{21}= {{p(w2)} \over {p(w1)}} θ21=p(w1)p(w2) |
条件平均风险(min) | r1(x)<r2(x) | r1(x)>r2(x) | θ 21 = p ( w 2 ) p ( w 1 ) L 21 − L 22 L 12 − L 11 \theta_{21}= {{p(w2)} \over {p(w1)}}{{L_{21}-L_{22}} \over {L_{12}-L_{11}}} θ21=p(w1)p(w2)L12−L11L21−L22(L的定义和上面相反) |
正态模式( max) | d1(x)>d2(x) | d2(x)>d1(x) | d i ( x ) = l n p ( w i ) − 1 2 l n ∥ C i ∥ − 1 2 ( x − m i ) T C i − 1 ( x − m i ) , d 1 ( x ) − d 2 ( x ) = 0 为 判 别 界 面 d_i(x)=ln p(w_i)-{{1} \over {2}}ln\|C_i\| -{{1} \over {2}}(x-m_i)^TC_i^{-1}(x-m_i) ,d_1(x)-d_2(x)=0为判别界面 di(x)=lnp(wi)−21ln∥Ci∥−21(x−mi)TCi−1(x−mi),d1(x)−d2(x)=0为判别界面 |
朴素贝叶斯
-
p
(
w
i
∣
x
)
=
p
(
x
∣
w
1
)
p
(
w
1
)
Σ
i
=
1
2
p
(
x
∣
w
i
)
p
(
w
i
)
p
(
x
∣
w
1
)
=
Π
i
p
(
x
i
∣
w
1
)
−
−
统
计
得
到
p(wi|x)= {{p(x|w1)p(w1)} \over {\Sigma_{i=1}^2 p(x|wi)p(wi)}}\\p(x|w_1)=\Pi_ip(x_i|w_1)--统计得到
p(wi∣x)=Σi=12p(x∣wi)p(wi)p(x∣w1)p(w1)p(x∣w1)=Πip(xi∣w1)−−统计得到
半监督无监督
聚类
k-均值聚类 | GMM | 层次聚类 | 基于密度的聚类 | |
---|---|---|---|---|
算法 | 随机中心,迭代更新簇中心 | EM求解;E步是软划分的k-means;M步不仅估计了均值还有协方差;属于所有簇概率均等时一样 | 树;凝聚式,分列式 | 连接性,最大性的点属于簇 |
局限性 | 不同尺寸、密度、非球形不可用;扰动影响大 | - | 贪心(拆分和合并不可逆);没有全局目标函数;对噪声和离群点敏感;难处理不同尺寸的簇和凸的簇;成链,误把大簇分裂 | 参数确定困难 ,不适合密度差异大的数据集;对变化的维度和高维数据不友好 |
损失函数 | 最小平方距离和 | 最小化负对数似然 | 没有优化一个全局的目标函数 | |
划分 | 点到簇的硬划分 | 从属关系的软划分 | 层次划分,拆分合并不可逆 | |
优点 | - | - | 不需要确定k,聚类结果可能对应着有意义的分类体系 | 不需要确定簇的数量;任意形状;对离群点稳定 |
超参数确定 | 间隔统计;交叉检验;簇的稳定性;非参数方法 | eps;minPts=k:同一个簇的点,到他们k最近邻的距离相同(画出来找) | ||
预处理 | 归一化;消除离群点 | |||
后处理 | 删除小簇;分裂远;合并近的 | |||
收敛 | 收敛(J单调下降) | 收敛 | ||
最优 | 局部极小 | 局部极小 | ||
假设 | 簇是球的且每个簇的概率相等(欧式距离、质心) | 簇是高斯分布,属于每个簇的概率不同,但每个簇都有可能,球或椭球形 |
GMM+EM+极大似然估计
- 目标函数: L = l o g p ( X l , Y l , X u ∣ θ ) = Σ i = 1 l l o g p ( y i ∣ θ ) p ( x i ∣ y i , θ ) + Σ i = l + 1 m l o g ( Σ k = 1 N p ( y i = k ∣ θ ) p ( x i ∣ y i = k , θ ) ) , θ i = α i , μ i , Σ i L=logp(X_l,Y_l,X_u|\theta)=\Sigma_{i=1}^llogp(y_i|\theta)p(x_i|y_i,\theta)+\Sigma_{i=l+1}^mlog(\Sigma_{k=1}^Np(y_i=k|\theta)p(x_i|y_i=k,\theta)),\theta_i={\alpha_i,\mu_i,\Sigma_i} L=logp(Xl,Yl,Xu∣θ)=Σi=1llogp(yi∣θ)p(xi∣yi,θ)+Σi=l+1mlog(Σk=1Np(yi=k∣θ)p(xi∣yi=k,θ)),θi=αi,μi,Σi
- = Σ i = 1 l l o g α y i N ( x i ∣ θ y i ) + Σ i = l m l o g Σ k = 1 N α k N ( x i ∣ θ k ) = Σ i = 1 l ( l o g α y i − n 2 l o g ( 2 π ) − 1 2 l o g ( ∣ Σ y i ∣ ) − ( x i − μ y i ) T Σ y i − 1 ( x i − μ y i ) + Σ i = l m l o g ( Σ k = 1 N ( α k 1 ( 2 π ) n / 2 ∣ Σ k ∣ 1 / 2 e x p { − 1 2 ( x i − μ k ) T Σ k − 1 ( x i − μ k ) } ) ) =\Sigma_{i=1}^llog \alpha_{y_i}N(x_i|\theta_{y_i})+\Sigma_{i=l}^mlog\Sigma_{k=1}^N\alpha_kN(x_i|\theta_k) \\=\Sigma_{i=1}^l(log\alpha_{y_i}-\frac{n}{2}log(2\pi)-\frac{1}{2}log(|\Sigma_{y_i}|)-(x_i-\mu_{y_i})^T\Sigma_{y_i}^{-1}(x_i-\mu_{y_i})+\Sigma_{i=l}^mlog(\Sigma_{k=1}^N(\alpha_k{{1} \over {(2\pi)^{n/2}|\Sigma_k|^{1/2}}} exp\{ -{{1} \over {2}}(x_i-\mu_k)^T{\Sigma_k}^{-1}(x_i-\mu_k)\})) =Σi=1llogαyiN(xi∣θyi)+Σi=lmlogΣk=1NαkN(xi∣θk)=Σi=1l(logαyi−2nlog(2π)−21log(∣Σyi∣)−(xi−μyi)TΣyi−1(xi−μyi)+Σi=lmlog(Σk=1N(αk(2π)n/2∣Σk∣1/21exp{−21(xi−μk)TΣk−1(xi−μk)}))
- E: 求 γ i k = p ( y i = k ∣ x i ) = α k N ( x i ∣ θ k ) Σ k = 1 N α k N ( x i ∣ θ k ) 求\gamma_{ik}=p(y_i=k|x_i)=\frac{\alpha_kN(x_i|\theta_k)}{\Sigma_{k=1}^N\alpha_kN(x_i|\theta_k)} 求γik=p(yi=k∣xi)=Σk=1NαkN(xi∣θk)αkN(xi∣θk)
- M: μ k = 1 Σ i = l m γ i k + l k ( Σ i ∈ D l , y i = k x i + Σ i = l m γ i k x i ) Σ i = 1 Σ i = l m γ i k + l k ( Σ i ∈ D l , y i = k ( x i − μ k ) ( x i − μ k ) T + Σ i = l m γ i k ( x i − μ k ) ( x i − μ k ) T ) α k = Σ i = l m γ i k + l k m \mu_k=\frac{1}{\Sigma_{i=l}^m\gamma_{ik}+l_k}(\Sigma_{i\in D_l ,y_i=k}x_i+\Sigma_{i=l}^m\gamma_{ik}x_i)\\ \Sigma_i=\frac{1}{\Sigma_{i=l}^m\gamma_{ik}+l_k}(\Sigma_{i\in D_l ,y_i=k}(x_i-\mu_k)(x_i-\mu_k)^T+\Sigma_{i=l}^m\gamma_{ik}(x_i-\mu_k)(x_i-\mu_k)^T)\\ \alpha_k=\frac{\Sigma_{i=l}^m\gamma_{ik}+l_k}{m} μk=Σi=lmγik+lk1(Σi∈Dl,yi=kxi+Σi=lmγikxi)Σi=Σi=lmγik+lk1(Σi∈Dl,yi=k(xi−μk)(xi−μk)T+Σi=lmγik(xi−μk)(xi−μk)T)αk=mΣi=lmγik+lk
有监督 | 无监督 | 半监督 | |
---|---|---|---|
目标函数 | L = l o g p ( X l , Y l ∥ θ ) = Σ i = 1 l l o g p ( y i ∥ θ ) p ( x i ∥ y i , θ ) = Σ i = 1 l l o g α y i N ( x i ∥ θ y i ) L=logp(X_l,Y_l\|\theta)=\Sigma_{i=1}^llogp(y_i\|\theta)p(x_i\|y_i,\theta)\\=\Sigma_{i=1}^llog \alpha_{y_i}N(x_i\|\theta_{y_i}) L=logp(Xl,Yl∥θ)=Σi=1llogp(yi∥θ)p(xi∥yi,θ)=Σi=1llogαyiN(xi∥θyi) | p ( x ; θ ) = Π i N Σ k = 1 K π k N ( x i ∥ μ k , Σ k ) p(x;\theta)=\Pi_i^N\Sigma_{k=1}^K\pi_kN(x_i\|\mu_k,\Sigma_k) p(x;θ)=ΠiNΣk=1KπkN(xi∥μk,Σk) | P ( x l , y l , x u ∥ θ ) = Σ i = 1 l l o g α y i N ( x i ∥ θ y i ) + Σ i = l m l o g Σ k = 1 N α k N ( x i ∥ θ k ) P(x_l,y_l,x_u\|\theta)=\Sigma_{i=1}^llog \alpha_{y_i}N(x_i\|\theta_{y_i})+\Sigma_{i=l}^mlog\Sigma_{k=1}^N\alpha_kN(x_i\|\theta_k) P(xl,yl,xu∥θ)=Σi=1llogαyiN(xi∥θyi)+Σi=lmlogΣk=1NαkN(xi∥θk) |
E | 求导解决 | 求 γ i k = p ( y i = k ∥ x i ) = α k N ( x i ∥ θ k ) Σ k = 1 N α k N ( x i ∥ θ k ) 求\gamma_{ik}=p(y_i=k\|x_i)=\frac{\alpha_kN(x_i\|\theta_k)}{\Sigma_{k=1}^N\alpha_kN(x_i\|\theta_k)} 求γik=p(yi=k∥xi)=Σk=1NαkN(xi∥θk)αkN(xi∥θk) | 求 γ i k = p ( y i = k ∥ x i ) = α k N ( x i ∥ θ k ) Σ k = 1 N α k N ( x i ∥ θ k ) 求\gamma_{ik}=p(y_i=k\|x_i)=\frac{\alpha_kN(x_i\|\theta_k)}{\Sigma_{k=1}^N\alpha_kN(x_i\|\theta_k)} 求γik=p(yi=k∥xi)=Σk=1NαkN(xi∥θk)αkN(xi∥θk) |
M | μ k = 1 l k ( Σ i ∈ D l , y i = k x i ) Σ i = 1 l k ( Σ i ∈ D l , y i = k ( x i − μ k ) ( x i − μ k ) T ) α k = l k m \mu_k=\frac{1}{l_k}(\Sigma_{i\in D_l ,y_i=k}x_i)\\\Sigma_i=\frac{1}{l_k}(\Sigma_{i\in D_l ,y_i=k}(x_i-\mu_k)(x_i-\mu_k)^T)\\\alpha_k=\frac{l_k}{m} μk=lk1(Σi∈Dl,yi=kxi)Σi=lk1(Σi∈Dl,yi=k(xi−μk)(xi−μk)T)αk=mlk | μ k = Σ i γ ( z i k ) x i γ ( z i k ) π k = Σ i γ ( z i k ) N Σ k = Σ i γ ( z i k ) ( x i − μ k ) ( x i − μ k ) T γ ( z i k ) \mu_k=\frac{\Sigma_i\gamma(z_{ik})x_i}{\gamma(z_{ik})}\\\pi_k=\frac{\Sigma_i\gamma(z_{ik})}{N}\\\Sigma_k=\frac{\Sigma_i\gamma(z_{ik})(x_i-\mu_k)(x_i-\mu_k)^T}{\gamma(z_{ik})} μk=γ(zik)Σiγ(zik)xiπk=NΣiγ(zik)Σk=γ(zik)Σiγ(zik)(xi−μk)(xi−μk)T | μ k = 1 Σ i = l m γ i k + l k ( Σ i ∈ D l , y i = k x i + Σ i = l m γ i k x i ) Σ i = 1 Σ i = l m γ i k + l k ( Σ i ∈ D l , y i = k ( x i − μ k ) ( x i − μ k ) T + Σ i = l m γ i k ( x i − μ k ) ( x i − μ k ) T ) α k = Σ i = l m γ i k + l k m \mu_k=\frac{1}{\Sigma_{i=l}^m\gamma_{ik}+l_k}(\Sigma_{i\in D_l ,y_i=k}x_i+\Sigma_{i=l}^m\gamma_{ik}x_i)\\\Sigma_i=\frac{1}{\Sigma_{i=l}^m\gamma_{ik}+l_k}(\Sigma_{i\in D_l ,y_i=k}(x_i-\mu_k)(x_i-\mu_k)^T+\Sigma_{i=l}^m\gamma_{ik}(x_i-\mu_k)(x_i-\mu_k)^T)\\\alpha_k=\frac{\Sigma_{i=l}^m\gamma_{ik}+l_k}{m} μk=Σi=lmγik+lk1(Σi∈Dl,yi=kxi+Σi=lmγikxi)Σi=Σi=lmγik+lk1(Σi∈Dl,yi=k(xi−μk)(xi−μk)T+Σi=lmγik(xi−μk)(xi−μk)T)αk=mΣi=lmγik+lk |
半监督=无监督+有监督 |
- 分析高斯混合模型和k-means的异同
- ;E步是软划分的k-means;M步不仅估计了均值还有协方差;属于所有簇概率均等时两者等价
判别函数
线性判别和非线性判别
- 试阐述线性判别和非线性判别的基本概念,并说明为何有了线性判别还要有非线性判别?假设有两类模式,每类模式有5个3维特征的样本,且良好分布,问线性可分情况下权重需要多少系数分量?假如需要建立二次多项式判别函数,需要多少系数分量?
- 线性判别:以线性函数为判别函数的模式分类
- 非线性判别:使用非线性函数作为判别函数的模式分类
- 因为存在线性不可分的模式,无法用线性判别函数进行模式分类
- C n + r r : n 维 数 据 , 采 用 r 次 多 项 式 的 参 数 个 数 C_{n+r}^r:n维数据,采用r次多项式的参数个数 Cn+rr:n维数据,采用r次多项式的参数个数
- 线 性 可 分 : C 4 1 = 4 二 次 : C 3 + 2 2 = 10 线性可分:C_4^1=4\\ 二次:C_{3+2}^2=10 线性可分:C41=4二次:C3+22=10
线性判别函数的数量(M分类
- 情况1:分为自己和其他所有:M个判别函数
- 情况2:分为i和j类:M(M-1)/2个判别函数
- 情况3:M个
想法 | …判别函数… | …判别… | 优点 | 缺点 | |
---|---|---|---|---|---|
二分类 | 区分为 ω 1 和 ω 2 \omega_1 和 \omega_2 ω1和ω2(不是1就是2) | d ( x ) = w 1 x 1 + w 2 x 2 + w 3 = 0 , 1 个 d(x)=w_1x_1+w_2x_2+w_3=0,\\1个 d(x)=w1x1+w2x2+w3=0,1个 | d ( x ) > 0 x ∈ ω 1 ; d ( x ) < 0 x ∈ ω 2 d(x)>0 x \in \omega_1;\\d(x)<0 x \in \omega_2 d(x)>0x∈ω1;d(x)<0x∈ω2 | — | — |
M分类1 | 区分为 ω 1 和 非 ω 1 \omega_1 和 非\omega_1 ω1和非ω1 | d i ( x ) = w 1 x 1 + w 2 x 2 + w 3 x 3 + . . . + w n x n + w n + 1 = w T x + w n + 1 = 0 , M 个 d_i(x)=w_1x_1+w_2x_2+w_3x_3+...+w_nx_n+w_{n+1}=w^Tx+w_{n+1}=0,\\M个 di(x)=w1x1+w2x2+w3x3+...+wnxn+wn+1=wTx+wn+1=0,M个 | d i ( x ) > 0 且 d j ( x ) < 0 , i ≠ j , i f x ∈ ω i d_i(x)>0 \\且 d_j(x)<0,\\i \neq j,\\if x \in \omega_i di(x)>0且dj(x)<0,i=j,ifx∈ωi | 简单 | 线性可分性差,IR区域最大 |
M分类2 | 区分为 ω i 和 ω j \omega_i 和 \omega_j ωi和ωj,一对一对的分 | d i j ( x ) = w 1 x 1 + w 2 x 2 + w 3 x 3 + . . . + w n x n + w n + 1 = w T x + w n + 1 = 0 , d i j ( x ) = − d j i ( x ) ; M ( M − 1 ) / 2 个 d_{ij}(x)=w_1x_1+w_2x_2+w_3x_3+...+w_nx_n+w_{n+1}=w^Tx+w_{n+1}=0,\\d_{ij}(x)=-d_{ji}(x);\\M(M-1)/2个 dij(x)=w1x1+w2x2+w3x3+...+wnxn+wn+1=wTx+wn+1=0,dij(x)=−dji(x);M(M−1)/2个 | d i j ( x ) > 0 且 i ≠ j , , 任 意 j , i f x ∈ ω i d_{ij}(x)>0 \\且i \neq j,,任意j,\\if x \in \omega_i dij(x)>0且i=j,,任意j,ifx∈ωi | 简单 | 线性可分性差,IR区域小,判别函数太多 |
M分类3_1 | 区分为 ω i 和 ω j \omega_i 和 \omega_j ωi和ωj,一对一对的分 | d i j ( x ) = d i ( x ) − d j ( x ) , d i j ( x ) = − d j i ( x ) ; M 个 d i ( x ) , M ( M − 1 ) / 2 个 判 别 面 d_{ij}(x)=d_i(x)-d_j(x),\\d_{ij}(x)=-d_{ji}(x);\\M个d_i(x),M(M-1)/2个判别面 dij(x)=di(x)−dj(x),dij(x)=−dji(x);M个di(x),M(M−1)/2个判别面 | d i j ( x ) > 0 且 i ≠ j , , 任 意 j , i f x ∈ ω i d_{ij}(x)>0 \\且i \neq j,,任意j,\\if x \in \omega_i dij(x)>0且i=j,,任意j,ifx∈ωi | 无IR | 线性可分性差,IR区域无 |
M分类3_2 | 区分为 ω i 和 ω j \omega_i 和 \omega_j ωi和ωj,一对一对的分 | d i j ( x ) = d i ( x ) − d j ( x ) , d i j ( x ) = − d j i ( x ) ; M 个 d i ( x ) , M ( M − 1 ) / 2 个 判 别 面 d_{ij}(x)=d_i(x)-d_j(x),\\d_{ij}(x)=-d_{ji}(x);\\M个d_i(x),M(M-1)/2个判别面 dij(x)=di(x)−dj(x),dij(x)=−dji(x);M个di(x),M(M−1)/2个判别面 | d i ( x ) > d j ( x ) 且 i ≠ j , 任 意 j , i f x ∈ ω i d_{i}(x)>d_j(x) \\且i \neq j,任意j,\\if x \in \omega_i di(x)>dj(x)且i=j,任意j,ifx∈ωi | 无IR | 线性可分性差,IR区域无 |
非线性f(x) | 核函数:非线性x–>线性的x*=f(x) | - | - | 从非线性变成了线性 | |x|<|x*| |
非线性分段判别函数 | 分段函数逼近曲线 | - | - | 从非线性变成了线性 | - |
最小距离分类 | 分段函数逼近曲线 | d ( x ) = ∥ x − μ 1 ∥ 2 − ∥ x − μ 2 ∥ 2 , μ 为 各 类 中 心 d(x)=\|x-\mu_1\|^2-\|x-\mu_2\|^2,\\\mu为各类中心 d(x)=∥x−μ1∥2−∥x−μ2∥2,μ为各类中心 | d ( x ) > 0 x ∈ ω 1 ; d ( x ) < 0 x ∈ ω 2 d(x)>0 x \in \omega_1;\\d(x)<0 x \in \omega_2 d(x)>0x∈ω1;d(x)<0x∈ω2 | 从非线性变成了线性 | - |
模式空间与权空间 | 模式空间w为面/线的法向量; 权空间x为法向量 | d ( x ) = w T x = 0 d(x)=w^Tx=0 d(x)=wTx=0 | 法 向 量 方 向 为 正 的 方 向 , d ( x ) > 0 x ∈ ω 1 ; d ( x ) < 0 x ∈ ω 2 法向量方向为正的方向,d(x)>0 x \in \omega_1;\\d(x)<0 x \in \omega_2 法向量方向为正的方向,d(x)>0x∈ω1;d(x)<0x∈ω2 | - | - |
Fisher准则函数(降维,找 J F ( w ) = ( m 1 ( y ) − m 2 ( y ) ) 2 S 1 2 ( y ) + S 1 2 ( y ) J_F(w)={{(m_1(y)-m_2(y))^2}\over {S_1^2(y)+S_1^2(y)}} JF(w)=S12(y)+S12(y)(m1(y)−m2(y))2最大的w) | d维空间–>1维且仍可分, y n = w T x n y_n=w^Tx_n yn=wTxn;找类间距离大,类内距离小的最佳投影方向; | d ( y n ) = T ( 阈 值 ) d(y_n)=T(阈值) d(yn)=T(阈值) | d ( y n ) > T x ∈ ω 1 ; d ( y n ) < T x ∈ ω 2 d(y_n)>T x \in \omega_1; d(y_n)<T x \in \omega_2 d(yn)>Tx∈ω1;d(yn)<Tx∈ω2 | 降维 | - |
决策树 | 二叉树,每个特征分一次 | 符合特征就专项分支 | 到哪个叶子,就是哪一类 | 概念简单、直观、便于解释,可用先验知识 | 不易得到最优 |
感知机
- 描述感知机模型,并给出权值学习算法。在此基础上,以仅有一个隐含层的三层神将网络为例,形式化描述BP算法中是如何对隐含层和神经元之间的连接权重调整的。
- 感知机模型:
y
=
W
T
x
,
>
0
分
为
w
1
类
,
<
0
分
为
w
2
类
;
分
错
:
W
t
+
1
=
W
t
+
y
i
∗
x
i
,
分
对
了
:
W
t
+
1
=
W
t
y=W^Tx,>0分为w1类,<0分为w2类;分错:W_{t+1}=W_t+y_i*x_i,分对了:W_{t+1}=W_t
y=WTx,>0分为w1类,<0分为w2类;分错:Wt+1=Wt+yi∗xi,分对了:Wt+1=Wt
- 感知机模型:
y
=
W
T
x
,
>
0
分
为
w
1
类
,
<
0
分
为
w
2
类
;
分
错
:
W
t
+
1
=
W
t
+
y
i
∗
x
i
,
分
对
了
:
W
t
+
1
=
W
t
y=W^Tx,>0分为w1类,<0分为w2类;分错:W_{t+1}=W_t+y_i*x_i,分对了:W_{t+1}=W_t
y=WTx,>0分为w1类,<0分为w2类;分错:Wt+1=Wt+yi∗xi,分对了:Wt+1=Wt
势函数法
9.势函数法(非线性)
- 一个样本一个势函数
- 计算积累位势函数K(x)
- x k + 1 ∈ ω 1 : K k ( x k + 1 ) < 0 x_{k+1} \in \omega_1:K_k(x_{k+1})<0 xk+1∈ω1:Kk(xk+1)<0则分错了:修改K(x)
- x k + 1 ∈ ω 1 : K k ( x k + 1 ) > 0 x_{k+1} \in \omega_1:K_k(x_{k+1})>0 xk+1∈ω1:Kk(xk+1)>0正确,不变
- 初始化
K
1
(
x
)
=
K_{1}(x)=
K1(x)=
- K ( x , x 1 ) , x 1 ∈ ω 1 K(x,x_1),x_1 \in \omega_1 K(x,x1),x1∈ω1
- − K ( x , x 1 ) , x 1 ∈ ω 2 -K(x,x_1),x_1 \in \omega_2 −K(x,x1),x1∈ω2
- 迭代
- 分错:
- K k + 1 ( x ) = K k ( x ) + K ( x , x k + 1 ) , x k + 1 ∈ ω 1 K_{k+1}(x)=K_{k}(x)+K(x,x_{k+1}),x_{k+1} \in \omega_1 Kk+1(x)=Kk(x)+K(x,xk+1),xk+1∈ω1
- K k + 1 ( x ) = K k ( x ) − K ( x , x k + 1 ) , x k + 1 ∈ ω 2 K_{k+1}(x)=K_{k}(x)-K(x,x_{k+1}),x_{k+1} \in \omega_2 Kk+1(x)=Kk(x)−K(x,xk+1),xk+1∈ω2
- 正确:
- 不变
- 分错:
- x = ( x 1 , x 2 ) T , x k = ( x k 1 , x k 2 ) T x=(x_1,x_2)^T,x_k=(x_{k_1},x_{k_2})^T x=(x1,x2)T,xk=(xk1,xk2)T
- 如何选择势函数
- K(x,xk)=K(xk,x)<==>当且仅当x=xk时最大
- x距离xk越远越小,无穷远则趋于0
- 光滑的,x距离xk越远越小
9.1Hermite
- Hermite多项式
- H 0 ( x ) = 1 H_0(x)=1 H0(x)=1
- H 1 ( x ) = 2 x H_1(x)=2x H1(x)=2x——一次多项式的K取到这里
- H 2 ( x ) = 4 x 2 − 2 H_2(x)=4x^2-2 H2(x)=4x2−2————二次多项式的K取到这里
- 建立二维正交函数集:(一次的,前两项排列组合
- ϕ 1 ( x ) = ϕ 1 ( x 1 , x 2 ) = H 0 ( x 1 ) H 0 ( x 2 ) = 1 \phi_1(x)=\phi_1(x_1,x_2)=H_0(x_1)H_0(x_2)=1 ϕ1(x)=ϕ1(x1,x2)=H0(x1)H0(x2)=1
- ϕ 2 ( x ) = ϕ 2 ( x 1 , x 2 ) = H 1 ( x 1 ) H 0 ( x 2 ) = 2 x 1 \phi_2(x)=\phi_2(x_1,x_2)=H_1(x_1)H_0(x_2)=2x_1 ϕ2(x)=ϕ2(x1,x2)=H1(x1)H0(x2)=2x1
- ϕ 3 ( x ) = ϕ 3 ( x 1 , x 2 ) = H 0 ( x 1 ) H 1 ( x 2 ) = 2 x 2 \phi_3(x)=\phi_3(x_1,x_2)=H_0(x_1)H_1(x_2)=2x_2 ϕ3(x)=ϕ3(x1,x2)=H0(x1)H1(x2)=2x2
- ϕ 4 ( x ) = ϕ 4 ( x 1 , x 2 ) = H 1 ( x 1 ) H 1 ( x 2 ) = 4 x 1 x 2 \phi_4(x)=\phi_4(x_1,x_2)=H_1(x_1)H_1(x_2)=4x_1x_2 ϕ4(x)=ϕ4(x1,x2)=H1(x1)H1(x2)=4x1x2
-
K
(
x
,
x
k
)
=
Σ
i
=
1
4
ϕ
i
(
x
)
ϕ
i
(
x
k
)
=
1
+
4
x
1
x
k
1
+
4
x
2
x
k
2
+
16
x
1
x
k
1
x
2
x
k
2
K(x,x_k)=\Sigma_{i=1}^4\phi_i(x)\phi_i(x_k)=1+4x_1x_{k_1}+4x_2x_{k_2}+16x_1x_{k_1}x_2x_{k_2}
K(x,xk)=Σi=14ϕi(x)ϕi(xk)=1+4x1xk1+4x2xk2+16x1xk1x2xk2
- 对样本 x 1 = ( 1 , 0 ) T : K 1 ( x ) = K 1 ( x , x 1 ) = 1 + 4 x 1 x_1=(1,0)^T:K_1(x)=K_1(x,x_1)=1+4x_1 x1=(1,0)T:K1(x)=K1(x,x1)=1+4x1——xk=x1
- x 2 = ( 0 , − 1 ) T K 1 ( x 2 , x 1 ) = 1 > 0 , 分 对 了 , 所 以 K 2 ( x ) = K 1 ( x ) x_2=(0,-1)^T K_1(x_2,x_1)=1>0,分对了,所以K_2(x)=K_1(x) x2=(0,−1)TK1(x2,x1)=1>0,分对了,所以K2(x)=K1(x)——看是否分对的时候x=x2
- 二次hermit
9.2z第二种:指数势函数
-
K
(
x
,
x
k
)
=
e
x
p
(
−
α
∥
x
−
x
k
∥
2
)
K(x,x_k)=exp(-\alpha \|x-x_k\|^2)
K(x,xk)=exp(−α∥x−xk∥2)
- 二维 α = 1 , K ( x , x k ) = e x p ( − ( ( x 1 − x k 1 ) 2 + ( x 2 − x k 2 ) 2 ) ) \alpha=1,K(x,x_k)=exp(-((x_1-x_{k_1})^2+(x_2-x_{k_2})^2)) α=1,K(x,xk)=exp(−((x1−xk1)2+(x2−xk2)2))
偏差方差分解过程
- 偏差-方差分解
- e x p e c t e d l o s s = b i a s 2 + v a r i a n c e + n o i s e expected loss=bias^2+variance +noise expectedloss=bias2+variance+noise
- e x p e c t e d l o s s = E ( f D ) = ∫ ∫ ( f D ( x ) − y ) 2 p ( x , y ) d x d y = { ∫ ( f D ( x ) − h ( x ) ) 2 p ( x ) d x + ∫ ∫ ( h ( x ) − y ) 2 p ( x , y ) d x d y } = ( E D ( f D ( x ) ) − h ( x ) ) 2 + E D ( f D ( x ) − E D ( f D ( x ) ) ) 2 + ∫ ∫ ( h ( x ) − y ) 2 p ( x , y ) d x d y expected loss=E(f_D)= \int \int (f_D(x)-y)^2p(x,y)dxdy\\=\{\int (f_D(x)-h(x))^2p(x)dx+\int \int (h(x)-y)^2p(x,y)dxdy\}\\=(E_D(f_D(x))-h(x))^2+E_D(f_D(x)-E_D(f_D(x)))^2+\int \int (h(x)-y)^2p(x,y)dxdy expectedloss=E(fD)=∫∫(fD(x)−y)2p(x,y)dxdy={∫(fD(x)−h(x))2p(x)dx+∫∫(h(x)−y)2p(x,y)dxdy}=(ED(fD(x))−h(x))2+ED(fD(x)−ED(fD(x)))2+∫∫(h(x)−y)2p(x,y)dxdy
-
b
i
a
s
=
E
D
(
f
D
(
x
)
)
−
h
(
x
)
,
预
测
结
果
的
均
值
和
最
优
解
的
差
别
bias=E_D(f_D(x))-h(x),预测结果的均值和最优解的差别
bias=ED(fD(x))−h(x),预测结果的均值和最优解的差别
- 模型越复杂,偏差越小
-
v
a
r
i
a
n
c
e
=
E
D
(
f
D
(
x
)
−
E
D
(
f
D
(
x
)
)
)
2
,
预
测
的
结
果
自
己
和
自
己
均
值
的
差
别
variance=E_D(f_D(x)-E_D(f_D(x)))^2,预测的结果自己和自己均值的差别
variance=ED(fD(x)−ED(fD(x)))2,预测的结果自己和自己均值的差别
- 模型越复杂,方差越大
- n o i s e = ∫ ∫ ( h ( x ) − y ) 2 p ( x , y ) d x d y noise=\int \int (h(x)-y)^2p(x,y)dxdy noise=∫∫(h(x)−y)2p(x,y)dxdy --不论如何也解决不了的部分,不用管了
-
E
D
(
f
D
(
x
)
)
=
f
ˉ
D
(
x
)
E_D(f_D(x))=\bar{f}_D(x)
ED(fD(x))=fˉD(x)
降维PCA
-
X 1 = ( − 5 − 5 − 4 − 5 − 6 − 5 − 4 − 5 − 6 − 5 ) X 2 = ( 5 5 6 5 4 5 6 5 4 5 ) M 1 = ( − 5 , − 5 ) T ; M 2 = ( 5 , 5 ) T ; M 1 + M 2 = 0 不 用 变 化 C = P ( w 1 ) X 1 X 1 T / 5 + P ( w 2 ) X 2 X 2 T / 5 = 0.5 ( 25.4 25 25 25.4 ) + 0.5 ( 25.4 25 25 25.4 ) = ( 25.4 25 25 25.4 ) C = W Σ W T = 1 2 ( − 1 1 1 1 ) ( 0.4 0 0 50.4 ) 1 2 ( − 1 1 1 1 ) T W = 1 2 ( − 1 1 1 1 ) 取 W ′ = 1 2 ( 1 , 1 ) T Z 1 = W T X 1 = 1 2 ( 1 , 1 ) ( − 5 − 5 − 4 − 5 − 6 − 5 − 4 − 5 − 6 − 5 ) = 1 2 ( − 10 − − 9 − 9 − 11 − 11 ) Z 1 = W T X 1 = 1 2 ( 1 , 1 ) ( 5 5 6 5 4 5 6 5 4 5 ) = 1 2 ( 10 11 11 9 9 ) X1=\left(\begin{matrix}-5&-5&-4&-5&-6\\-5&-4&-5&-6&-5\end{matrix}\right)\\ X2=\left(\begin{matrix}5&5&6&5&4\\5&6&5&4&5\end{matrix}\right)\\ M1=(-5,-5)^T;M2=(5,5)^T;M1+M2=0不用变化\\ C=P(w_1)X1X1^T/5+P(w_2)X2X2^T/5=0.5\left(\begin{matrix}25.4&25\\25&25.4\end{matrix}\right)+0.5\left(\begin{matrix}25.4&25\\25&25.4\end{matrix}\right)=\left(\begin{matrix}25.4&25\\25&25.4\end{matrix}\right)\\ C=W\Sigma W^T=\frac{1}{\sqrt{2}}\left(\begin{matrix}-1&1\\1&1\end{matrix}\right)\left(\begin{matrix}0.4&0\\0&50.4\end{matrix}\right)\frac{1}{\sqrt{2}}\left(\begin{matrix}-1&1\\1&1\end{matrix}\right)^T\\ W=\frac{1}{\sqrt{2}}\left(\begin{matrix}-1&1\\1&1\end{matrix}\right)\\ 取W'=\frac{1}{\sqrt{2}}(1,1)^T\\ Z1=W^TX1=\frac{1}{\sqrt{2}}(1,1)\left(\begin{matrix}-5&-5&-4&-5&-6\\-5&-4&-5&-6&-5\end{matrix}\right)=\frac{1}{\sqrt{2}}\left(\begin{matrix}-10&--9&-9&-11&-11\end{matrix}\right)\\ Z1=W^TX1=\frac{1}{\sqrt{2}}(1,1)\left(\begin{matrix}5&5&6&5&4\\5&6&5&4&5\end{matrix}\right)=\frac{1}{\sqrt{2}}\left(\begin{matrix}10&11&11&9&9\end{matrix}\right) X1=(−5−5−5−4−4−5−5−6−6−5)X2=(5556655445)M1=(−5,−5)T;M2=(5,5)T;M1+M2=0不用变化C=P(w1)X1X1T/5+P(w2)X2X2T/5=0.5(25.4252525.4)+0.5(25.4252525.4)=(25.4252525.4)C=WΣWT=21(−1111)(0.40050.4)21(−1111)TW=21(−1111)取W′=21(1,1)TZ1=WTX1=21(1,1)(−5−5−5−4−4−5−5−6−6−5)=21(−10−−9−9−11−11)Z1=WTX1=21(1,1)(5556655445)=21(10111199)
-
思想:最小化重构误差
-
算法:(不区分类别)
- 均值化为0: x i = x i − 1 m Σ j = 1 m x j − − − 这 是 所 有 样 本 的 均 值 , 若 有 多 类 , 则 是 多 类 样 本 均 值 之 和 x_i=x_i-\frac{1}{m}\Sigma_{j=1}^mx_j---这是所有样本的均值,若有多类,则是多类样本均值之和 xi=xi−m1Σj=1mxj−−−这是所有样本的均值,若有多类,则是多类样本均值之和
- 计算 X X T XX^T XXT
- 对 C = E ( X X T ) C=E(XX^T) C=E(XXT)特征分解(SVD取U)(C-协方差)
- 取前d‘个特征向量: W = ( w 1 , w 2 , . . . , w d ′ ) W=(w_1,w_2,...,w_{d'}) W=(w1,w2,...,wd′)
- z = W T x z=W^Tx z=WTx
-
算法:(区分类别)
- 均值化为0: x i = x i − m , m = m 1 + m 2 − − − 这 是 所 有 样 本 的 均 值 , 若 有 多 类 , 则 是 多 类 样 本 均 值 之 和 , x_i=x_i-m,m=m_1+m_2---这是所有样本的均值,若有多类,则是多类样本均值之和, xi=xi−m,m=m1+m2−−−这是所有样本的均值,若有多类,则是多类样本均值之和,
- 计算 X X T XX^T XXT
- 对 C = p ( w 1 ) E ( X 1 X 1 T ) + p ( w 2 ) E ( X 2 X 2 T ) = V Σ V T , V 的 列 向 量 为 特 征 向 量 W = V , V T C V = Σ C=p(w_1)E(X_1X_1^T)+p(w_2)E(X_2X_2^T)=V\Sigma V^T,V的列向量为特征向量W=V,V^TCV=\Sigma C=p(w1)E(X1X1T)+p(w2)E(X2X2T)=VΣVT,V的列向量为特征向量W=V,VTCV=Σ特征分解(SVD取U)(C-协方差)
- 取前d‘个特征向量: W = ( w 1 , w 2 , . . . , w d ′ ) , w i 为 列 向 量 − 特 征 向 量 W=(w_1,w_2,...,w_{d'}),w_i为列向量-特征向量 W=(w1,w2,...,wd′),wi为列向量−特征向量
- z = W T x , x 是 均 值 归 0 后 的 z=W^Tx,x是均值归0后的 z=WTx,x是均值归0后的
-
PCA优化目标
- 最小化重构误差
- PCA能够获取互不相关的新特征。采用较大特征值对应的特征向量变换,则能保留元模式中方差最大的特征部分,所以K-L变换起到了减小相关性,突出差异性的效果==KL变换
SVM
原问题 | 拉格朗日 | 对偶问题 | 分界面 | 最终参数 | |
---|---|---|---|---|---|
hard margin | m i n w 1 2 ∥ w ∥ 2 min_w \frac{1}{2}\|w\|^2 minw21∥w∥2约束 y i ( w T x i ) > = 1 , 对 任 意 i y^i(w^Tx^i)>=1,对任意i yi(wTxi)>=1,对任意i | L ( λ i , w , b ) = Σ i = 1 N λ i ( 1 − y i ( w T x i + b ) ) + + 1 2 ∥ w ∥ 2 L(\lambda_i,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b))_++\frac{1}{2} \|w\|^2 L(λi,w,b)=Σi=1Nλi(1−yi(wTxi+b))++21∥w∥2 | m a x λ θ D ( λ ) = Σ i = 1 n λ i − 1 2 Σ i , j = 1 n y i y j λ i λ j ( x i ) T x j max_\lambda \theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^j maxλθD(λ)=Σi=1nλi−21Σi,j=1nyiyjλiλj(xi)Txj约束: λ i > = 0 ; Σ i = 1 n λ i y i = 0 \lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0 λi>=0;Σi=1nλiyi=0 | b ∗ + Σ i = 1 n λ i ∗ y i ( x i ) T x j = 0 b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j=0 b∗+Σi=1nλi∗yi(xi)Txj=0 | w ∗ = Σ i = 1 n λ i ∗ y i x i ; b ∗ = y j − Σ i = 1 n λ i ∗ y i ( x i ) T x j w*=\Sigma_{i=1}^n \lambda_i*y^ix^i;b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j w∗=Σi=1nλi∗yixi;b∗=yj−Σi=1nλi∗yi(xi)Txj |
soft | m i n w 1 2 ∥ w ∥ 2 + C Σ i = 1 n ξ i min_w \frac{1}{2}\|w\|^2+C\Sigma_{i=1}^n\xi_i minw21∥w∥2+CΣi=1nξi约束 y i ( w T x i ) > = 1 − ξ i , ξ i ≥ 0 , 对 任 意 i y^i(w^Tx^i)>=1-\xi_i,\xi_i \geq 0,对任意i yi(wTxi)>=1−ξi,ξi≥0,对任意i | L ( λ i , η i , ξ , w , b ) = Σ i = 1 N λ i ( 1 − y i ( w T x i + b ) − ξ i ) − Σ i = 1 n η i ξ i + 1 2 ∥ w ∥ 2 L(\lambda_i,\eta_i,\xi,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b)-\xi_i)-\Sigma_{i=1}^n\eta_i \xi_i+\frac{1}{2} \|w\|^2 L(λi,ηi,ξ,w,b)=Σi=1Nλi(1−yi(wTxi+b)−ξi)−Σi=1nηiξi+21∥w∥2 | m a x λ θ D ( λ ) = Σ i = 1 n λ i − 1 2 Σ i , j = 1 n y i y j λ i λ j ( x i ) T x j max_\lambda \theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^j maxλθD(λ)=Σi=1nλi−21Σi,j=1nyiyjλiλj(xi)Txj 约束: 0 ≤ λ i ≤ C = λ i + η i ( η i > = 0 ) ; Σ i = 1 n λ i y i = 0 0 \leq \lambda_i\leq C=\lambda_i+\eta_i(\eta_i>=0);\Sigma_{i=1}^n\lambda_iy^i=0 0≤λi≤C=λi+ηi(ηi>=0);Σi=1nλiyi=0 | b ∗ + Σ i = 1 n λ i ∗ y i ( x i ) T x j = 0 b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j=0 b∗+Σi=1nλi∗yi(xi)Txj=0 | w ∗ = Σ i = 1 n λ i ∗ y i x i ; b ∗ = y j − Σ i = 1 n λ i ∗ y i ( x i ) T x j w*=\Sigma_{i=1}^n \lambda_i*y^ix^i;b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j w∗=Σi=1nλi∗yixi;b∗=yj−Σi=1nλi∗yi(xi)Txj |
kernel | - | - | θ D ( λ ) = Σ i = 1 n λ i − 1 2 Σ i , j = 1 n y i y j λ i λ j K ( x i , x j ) \theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_jK(x^i,x^j) θD(λ)=Σi=1nλi−21Σi,j=1nyiyjλiλjK(xi,xj)约束: λ i > = 0 ; Σ i = 1 n λ i y i = 0 \lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0 λi>=0;Σi=1nλiyi=0 | w ∗ = Σ i = 1 n λ i ∗ y i x i b ∗ = y j − Σ i = 1 n λ i ∗ y i K ( x i , x j ) w*=\Sigma_{i=1}^n \lambda_i*y^ix^i\\b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i K(x^i,x^j) w∗=Σi=1nλi∗yixib∗=yj−Σi=1nλi∗yiK(xi,xj) |
- SMO
- 每次对一对,其他n-2个固定:
λ
1
y
1
+
λ
2
y
2
=
−
Σ
i
=
3
N
α
i
y
i
=
C
\lambda_1y^1+\lambda_2y^2=-\Sigma_{i=3}^N\alpha_iy^i=C
λ1y1+λ2y2=−Σi=3Nαiyi=C
- λ 1 = ( C − λ 2 y 2 ) y 1 \lambda_1=(C-\lambda_2y^2)y^1 λ1=(C−λ2y2)y1
- L ( ( C − λ 2 y 2 ) y 1 , λ 2 , . . . , λ N ) , 先 忽 略 约 束 求 导 , 得 到 λ 2 n e w , u n c l i p p e d , 再 加 上 约 束 L((C-\lambda_2y^2)y^1,\lambda_2,...,\lambda_N),先忽略约束求导,得到\lambda_2^{new,unclipped},再加上约束 L((C−λ2y2)y1,λ2,...,λN),先忽略约束求导,得到λ2new,unclipped,再加上约束
- 用 λ 2 更 新 λ 1 : λ 1 n e w = λ 1 o l d ( λ 2 o l d − λ 2 n e w ) y 2 y 1 用\lambda_2更新\lambda_1:\lambda_1^{new}=\lambda_1^{old}(\lambda_2^{old}-\lambda_2^{new})y^2y^1 用λ2更新λ1:λ1new=λ1old(λ2old−λ2new)y2y1
- 从那一对开始呢?
- 每次对一对,其他n-2个固定:
λ
1
y
1
+
λ
2
y
2
=
−
Σ
i
=
3
N
α
i
y
i
=
C
\lambda_1y^1+\lambda_2y^2=-\Sigma_{i=3}^N\alpha_iy^i=C
λ1y1+λ2y2=−Σi=3Nαiyi=C
神经网络
人工神经网络
- 定义
所谓人工神经网络就是基于模仿生物大脑的结构和功能而构成的一种信息处理系统(计算机)。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。由于我们建立的信息处理系统实际上是模仿生理神经网络,因此称它为人工神经网络。 - 特点
- 固有的并行结构和并行处理;
- 知识的分布存储;
- 容错性;
- 自适应性;
- 人工神经网络也有其局限性(
- 不适于高精度的计算、
- 不适于类似顺序计数的工作、
- 学习和训练是一个艰难的过程、
- 必须克服时间域顺序处理方面的困难、
- 硬件限制、
- 正确的训练数据的收集)。
- 考虑因素
要基于应用的要求和人工神经网络模型的能力间的匹配,主要考虑因素包括:
网络大小、所需输出类型、联想记忆类型、训练方法、时间的限定。
why deep
- 深层结构能够有效地表达
- 对相同函数需要更少的计算单元
- 高层可以综合利用低层信息
- 深层结构产生层次化的特征表达
- 可解释性,更有语义化信息
- 多层隐变量允许统计上的组合共享
- 有效
BP:
CNN
- CNN基本操作的含义
- 卷积层: 检测某种特异性特征,不同的权值组合检测不同的特征,通过局部连接,参数共享降低参数数量
- 池化层:平移不变性和旋转不变性(下采样+降维)
- 激活函数(RELU)层: 非线性。
- 多层:层级性