仅供参考,如有错误请指正
1. 信息增益的定义,信息增益的好处?决策树决策面是否为线性,举例说明。
- 信息增益是集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差:
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)−H(D∣A) - 一般也将熵与条件熵的差值叫做互信息,决策树学习中的信息增益等价于训练数据集中的类和特征的互信息。互信息表示由于特征A使数据集D分类的不确定性减少的程度,因此互信息高的特征有更强的分类能力。依此决策能够有很好的分类效果。
- (感觉是在问信息增益比的好处)信息增益往往偏向于划分数较多的特征——划分的越细往往分类效果越好。因此要进行校正,采用信息增益比,将信息增益除以数据集D关于特征A值的熵
H
A
(
D
)
H_A(D)
HA(D)来决策:
g R ( D , A ) = g ( D , A ) H A ( D ) g_R(D,A)=\frac{g(D,A)}{H_A(D)} gR(D,A)=HA(D)g(D,A)
其中 H A ( D ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ log 2 ∣ D i ∣ ∣ D ∣ H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\log_2\frac{|D_i|}{|D|} HA(D)=−i=1∑n∣D∣∣Di∣log2∣D∣∣Di∣
-决策树是非线性分类器(可以解决异或问题)。如果每个属性只使用一次,决策树的决策面是对样本空间的一个划分:
2.最小概率下最优分类方法及证明
即证明贝叶斯最优分类器 - 决策方法:
h ( X ) = − ln p 1 ( X ) + ln p 2 ( X ) > < ln π 1 π 2 h(X)=-\ln p_1(X)+\ln p_2(X) \frac{>}{<} \ln \frac{\pi_1}{\pi_2} h(X)=−lnp1(X)+lnp2(X)<>lnπ2π1
(大于小于放一块不会打) - 证明
均损失为:
C M = ∫ L 1 P 2 p 2 ( x ) + ∫ L 2 P 1 p 1 ( x ) = ∫ L 1 P 2 p 2 ( x ) + P 1 ( 1 − ∫ L 1 p 1 ( x ) ) = ∫ L 1 ( P 2 p 2 ( x ) − P 1 p 1 ( x ) ) + P 1 \begin{aligned} C_M&=\int_{L1}P_2p_2(x) + \int_{L2}P_1p_1(x)\\ &=\int_{L1}P_2p_2(x)+P_1(1-\int_{L_1}p_1(x))\\ &=\int_{L1}(P_2p_2(x)-P_1p_1(x)) + P_1 \end{aligned} CM=∫L1P2p2(x)+∫L2P1p1(x)=∫L1P2p2(x)+P1(1−∫L1p1(x))=∫L1(P2p2(x)−P1p1(x))+P1
min ∫ L 1 ( P 2 p 2 ( x ) − P 1 p 1 ( x ) ) + P 1 ⟺ max ∫ L 1 ( P 1 p 1 ( x ) − P 2 p 2 ( x ) ) \min\int_{L1}(P_2p_2(x)-P_1p_1(x)) + P_1 \iff \max\int_{L1}(P_1p_1(x)-P_2p_2(x)) min∫L1(P2p2(x)−P1p1(x))+P1⟺max∫L1(P1p1(x)−P2p2(x))
易得 P 1 p 1 ( x ) = P 2 p 2 ( x ) P_1p_1(x)=P_2p_2(x) P1p1(x)=P2p2(x) 时满足条件,为均误差最小点,整理得最优判决界:
ln p 2 ( x ) p 1 ( x ) = ln π 1 π 2 \ln \frac{p_2(x)}{p_1(x)} = \ln \frac{\pi_1}{\pi_2} lnp1(x)p2(x)=lnπ2π1
3. 什么是过拟合,决策树、SVM如何解决过拟合?
- 过拟合:过拟合是指过度的学习训练集特征导致模型泛化能力不足,在训练集上损失很低甚至零损失,但在测试集上表现的很差。
- 决策树解决过拟合:决策树采用剪枝来简化模型,降低决策树的复杂度,避免过拟合:
C α ( T ) = ∑ t = 1 ∣ T ∣ N t H t ( T ) + α ∣ T ∣ C_\alpha (T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha |T| Cα(T)=t=1∑∣T∣NtHt(T)+α∣T∣
决策树的生成是不断选择局部最优,而剪支则需考虑全局的情况。递归的从叶节点回缩,如果得到的树T相比原先的树 C α C_\alpha Cα降低,则选择剪枝。总体的思路是关注分类程度的同时,对树的复杂度进行约束:
C o s t ( M o d e l , D a t a ) = C o s t ( D a t a ∣ M o d e l ) + C o s t ( M o d e l ) Cost(Model, Data)=Cost(Data|Model) + Cost(Model) Cost(Model,Data)=Cost(Data∣Model)+Cost(Model) - SVM解决过拟合:引入软间隔概念,不再是绝对的划分,允许一些点有误差可以防止模型过拟合,提高泛化能力:
min w , b , ξ 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 N ξ i \min_{w,b,\xi} \frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i w,b,ξmin21∣∣w∣∣2+Ci=1∑Nξi
s.t. y i ( w x i + b ) > = ξ i , i = 1 , 2 , . . . , N y_i(wx_i+b)>=\xi_i,i=1,2,...,N yi(wxi+b)>=ξi,i=1,2,...,N
ξ i > = 0 \xi_i>=0 ξi>=0
4. 在第二题的分类方法下,假设类概率分布为伯努利,类条件概率为协方差相同的高斯分布,求分界面方程和后验概率? - 如题
π 1 = P , π 2 = 1 − P \pi_1=P,\pi_2=1-P π1=P,π2=1−P
p 1 ( x ) = 1 ( 2 π ) n ∣ Σ ∣ 1 2 exp − ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) 2 p_1(x)=\frac{1}{(2\pi)^n|\Sigma|^{\frac{1}{2}}}\exp^{-\frac{(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)}{2}} p1(x)=(2π)n∣Σ∣211exp−2(x−μ1)TΣ−1(x−μ1)
p 2 ( x ) = 1 ( 2 π ) n ∣ Σ ∣ 1 2 exp − ( x − μ 2 ) T Σ − 1 ( x − μ 2 ) 2 p_2(x)=\frac{1}{(2\pi)^n|\Sigma|^{\frac{1}{2}}}\exp^{-\frac{(x-\mu_2)^T\Sigma^{-1}(x-\mu_2)}{2}} p2(x)=(2π)n∣Σ∣211exp−2(x−μ2)TΣ−1(x−μ2)
分界面为:
ln p 2 ( x ) p 1 ( x ) = ln π 1 π 2 \ln \frac{p_2(x)}{p_1(x)} = \ln \frac{\pi_1}{\pi_2} lnp1(x)p2(x)=lnπ2π1
ln p 2 ( x ) − ln p 1 ( x ) = ln P 1 − P \ln p_2(x) - \ln p_1(x) = \ln \frac{P}{1-P} lnp2(x)−lnp1(x)=ln1−PP
− ( x − μ 2 ) T Σ − 1 ( x − μ 2 ) 2 + ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) 2 = ln P 1 − P -\frac{(x-\mu_2)^T\Sigma^{-1}(x-\mu_2)}{2}+\frac{(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)}{2} = \ln \frac{P}{1-P} −2(x−μ2)TΣ−1(x−μ2)+2(x−μ1)TΣ−1(x−μ1)=ln1−PP
2 ( μ 2 T Σ − 1 − μ 1 T Σ − 1 ) x + ( μ 1 T Σ − 1 μ 1 − μ 2 T Σ − 1 μ 2 ) + ln 1 − P P = 0 2(\mu_2^T\Sigma^{-1}-\mu_1^T\Sigma^{-1})x+(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2)+\ln \frac{1-P}{P}=0 2(μ2TΣ−1−μ1TΣ−1)x+(μ1TΣ−1μ1−μ2TΣ−1μ2)+lnP1−P=0
5. 逻辑回归优化目标函数,以及交叉熵角度的理解
- 逻辑回归优化目标函数
l ( w ) = ln ∏ l P ( Y l ∣ X l , W ) = ∑ l ln P ( Y l ∣ X l , W ) = ∑ l Y l ln ( P ( Y l = 1 ∣ X l , W ) ) + ( 1 − Y l ) ln ( P ( Y l = 0 ∣ X l , W ) ) \begin{aligned} l(w)&=\ln \prod_l P(Y^l|X^l,W)\\ &=\sum_l \ln P(Y^l|X^l,W)\\ &=\sum_l Y^l\ln(P(Y^l=1|X^l,W))+(1-Y^l)\ln(P(Y^l=0|X^l,W)) \end{aligned} l(w)=lnl∏P(Yl∣Xl,W)=l∑lnP(Yl∣Xl,W)=l∑Ylln(P(Yl=1∣Xl,W))+(1−Yl)ln(P(Yl=0∣Xl,W)) - 交叉熵角度:交叉熵的两个概率分别是真实分布和估计分布。本式中,
Y
l
Y^l
Yl为类别1时的真实分布,
ln
(
P
(
Y
l
=
1
∣
X
l
,
W
)
)
\ln(P(Y^l=1|X^l,W))
ln(P(Yl=1∣Xl,W))为类别1的估计概率信息量,因为:
D K l ( p ∣ ∣ q ) = − H ( p ) + H ( p , q ) D_{Kl}(p||q)=-H(p)+H(p,q) DKl(p∣∣q)=−H(p)+H(p,q)
Kl散度为交叉熵减去真实分布的信息熵,kl散度用来判断分布之间差距,因此用交叉熵作为损失函数可以很好的反应估计分布与真实分布之间的关系。
6. PCA推导,应用举例
- 想要找到一个投影方向使得信息能最大程度保留,即方差最大:
max ∑ i ( u T x i − u T x ‾ ) 2 = u T S u \max \sum_i (u^Tx_i-u^T\overline{x})^2=u^TSu maxi∑(uTxi−uTx)2=uTSu
s.t. u T u = 1 u^Tu=1 uTu=1
拉格朗日乘子法求解:
u T S u + λ ( 1 − u T u ) u^TSu+\lambda(1-u^Tu) uTSu+λ(1−uTu)
得:
S u = λ u , u T S u = λ Su=\lambda u,u^TSu=\lambda Su=λu,uTSu=λ
因此最大方差对应最大特征值,投影方向为最大特征值的特征向量。 - 应用:图像压缩,特征提取,数据降维
7. GMM模型优化目标函数(EM)主要步骤,协方差为0的情况,处理方法?
- 目标函数,不完全数据的对数似然函数:
L ( θ ) = log P ( y ∣ θ ) = log ( ∑ Z P ( y , z ∣ θ ) ) L(\theta)=\log P(y|\theta)=\log(\sum_ZP(y,z|\theta)) L(θ)=logP(y∣θ)=log(Z∑P(y,z∣θ))
经过推导,可以转换为完全数据对数似然函数的期望:
log P ( y ∣ θ ) = log ( ∑ Z P ( y , z ∣ θ ) ) = log ( ∑ Z P ( z ) P ( y , z ∣ θ ) P ( z ) ) ≥ ∑ Z P ( z ) log ( P ( y , z ∣ θ ) P ( z ) ) = E z [ log P ( y , z ∣ θ ) ] + H ( z ) \begin {aligned} \log P(y|\theta)&=\log(\sum_ZP(y,z|\theta))\\ &=\log(\sum_ZP(z)\frac{P(y,z|\theta)}{P(z)})\\ &\ge\sum_ZP(z)\log(\frac{P(y,z|\theta)}{P(z)})\\ &=E_{z}[\log P(y,z|\theta)]+H(z ) \end {aligned} logP(y∣θ)=log(Z∑P(y,z∣θ))=log(Z∑P(z)P(z)P(y,z∣θ))≥Z∑P(z)log(P(z)P(y,z∣θ))=Ez[logP(y,z∣θ)]+H(z)
因此主要步骤为EM两步:
(直接粘报告了)
E步骤——得到完全数据对数似然函数的期望
M步骤——将期望最大化
- 协方差矩阵奇异:说明有一个属性的方差为0,该属性冗余,可以直接使用PCA的思路将数据降维后再处理。
8. 低维不可分的情况高维可分,举例说明为什么,实验中有无应用
- 高维空间提供更多的信息,使不可分的数据变得可分。如SVM中的核技巧,将原空间内积运算变换到特征空间中的内积运算,在新特征空间学习线性SVM,当核函数为非线性,可达到高维度线性方法解决低维非线性分类问题。
9. 内积的应用,举例3个
- PCA中使用内积来计算原向量在特征向量方向的投影,实现基底的转换达到降维的目的。
- SVM中使用内积来进行核技巧,不显示定义映射函数 ϕ \phi ϕ,而是直接将内积运算进行特征变换,等价于经过映射函数将输入变换到新的特征空间。
- 正则化中常用参数w的内积来表示其二范数,用来表征模型的复杂度
总的来说内积运算用来直观地衡量向量之间的相似度距离,如皮尔逊相似度。
时间紧写的仓促,没涵盖的地方或有错误的地方希望大家指出