国科大prml-往年习题

1 模式识别

  1. 简述模式的概念和他的直观特性
    • 模式:是抽取自物体的信息集合,既包含空间部分,又包含时间部分。
    • 直观特性:可观察性,可区分性,相似性
    • 主要方法:
      • 监督学习:概念驱动,归纳假说
      • 无监督学习:数据驱动,演绎假说
    • 模式分类的主要方法:
      • 数据聚类:用某种相似性度量的方法将原始数据组织成有意义的和有用的各种数据集。是一种非监督学习的方法,解决方案是数据驱动的。
      • 统计分类:基于概率统计模型得到各类别的特征向量的分布,以取得分类的方法。特征向量分布的获得是基于一个类别已知的训练样本集。是一种监督分类的方法,分类器是概念驱动的。
      • 结构模式识别:该方法通过考虑识别对象的各部分之间的联系来达到识别分类的目的。(句法模式识别)
      • 神经网络:由一系列互相联系的、相同的单元(神经元)组成。相互间的联系可以在不同的神经元之间传递增强或抑制信号。增强或抑制是通过调整神经元相互间联系的权重系数来(weight)实现。神经网络可以实现监督和非监督学习条件下的分类。

过拟合欠拟合

  1. 某研究者在会议上使用SVM,在如下情况下,如何才能使效果更好:
    • 训练5%,验证误差10%,测试误差10%
      • 欠拟合:换用复杂度高的模型
    • 训练1%,验证误差10%,测试误差10%
      • 过拟合:换复杂度低的模型
    • 训练1%,验证误差3%,测试误差10%
      • 测试数据与训练数据不是独立同分布的,更换测试数据集

概率图

概率图-独立性

在这里插入图片描述
* P(x1,x2,x3,x4,x5,x6)=p(x1)p(x6)P(x2|x1)p(x3|x1,x6)P(x4|x3)p(x5|x2,x4)
* p ( x 1 , x 2 , x 3 , x 6 ) = Σ x 4 Σ x 5 P ( x 1 , x 2 , x 3 , x 4 , x 5 , x 6 ) = p ( x 1 ) p ( x 6 ) P ( x 2 ∣ x 1 ) p ( x 3 ∣ x 1 , x 6 ) Σ x 4 P ( x 4 ∣ x 3 ) Σ x 5 p ( x 5 ∣ x 2 , x 4 ) = p ( x 1 ) p ( x 6 ) P ( x 2 ∣ x 1 ) p ( x 3 ∣ x 1 , x 6 ) p(x1,x2,x3,x6)=\Sigma_{x4}\Sigma_{x5}P(x1,x2,x3,x4,x5,x6)\\=p(x1)p(x6)P(x2|x1)p(x3|x1,x6)\Sigma_{x4}P(x4|x3)\Sigma_{x5}p(x5|x2,x4)\\=p(x1)p(x6)P(x2|x1)p(x3|x1,x6) p(x1,x2,x3,x6)=Σx4Σx5P(x1,x2,x3,x4,x5,x6)=p(x1)p(x6)P(x2x1)p(x3x1,x6)Σx4P(x4x3)Σx5p(x5x2,x4)=p(x1)p(x6)P(x2x1)p(x3x1,x6)
* Σ x 5 p ( x 5 ∣ x 2 , x 4 ) = 1 \Sigma_{x5}p(x5|x2,x4)=1 Σx5p(x5x2,x4)=1
* P ( x 1 , x 2 , x 3 , x 4 , x 6 ) = Σ x 5 P ( x 1 , x 2 , x 3 , x 4 , x 5 , x 6 ) = p ( x 1 ) p ( x 6 ) P ( x 2 ∣ x 1 ) p ( x 3 ∣ x 1 , x 6 ) P ( x 4 ∣ x 3 ) P(x1,x2,x3,x4,x6)=\Sigma_{x5}P(x1,x2,x3,x4,x5,x6)\\=p(x1)p(x6)P(x2|x1)p(x3|x1,x6)P(x4|x3) P(x1,x2,x3,x4,x6)=Σx5P(x1,x2,x3,x4,x5,x6)=p(x1)p(x6)P(x2x1)p(x3x1,x6)P(x4x3)
* P ( x 4 ∣ x 1 , x 2 , x 3 , x 6 ) = p ( x 4 ∣ x 3 ) − − − 所 以 给 定 x 3 , x 4 和 x 6 独 立 , 和 x 1 / x 2 / x 6 均 独 立 P(x4|x1,x2,x3,x6)=p(x4|x3)---所以给定x3,x4和x6独立,和x1/x2/x6均独立 P(x4x1,x2,x3,x6)=p(x4x3)x3,x4x6x1/x2/x6

HMM

在这里插入图片描述

  • A:aij:i->j
  • 前向计算
    • 时间1:
      • α ( y 1 = 1 ) = P ( x 1 ∣ y 1 = 1 ) π y 1 = 1 = 0.5 ∗ 0.2 = 0.1 ( x 1 = 红 ) α ( y 1 = 2 ) = P ( x 1 ∣ y 1 = 2 ) π y 1 = 2 = 0.4 ∗ 0.4 = 0.16 α ( y 1 = 3 ) = P ( x 1 ∣ y 1 = 3 ) π y 1 = 3 = 0.7 ∗ 0.4 = 0.28 \alpha(y_1=1)=P(x_1|y_1=1)\pi_{y_1=1}=0.5*0.2=0.1\\(x1=红) \alpha(y_1=2)=P(x_1|y_1=2)\pi_{y_1=2}=0.4*0.4=0.16 \alpha(y_1=3)=P(x_1|y_1=3)\pi_{y_1=3}=0.7*0.4=0.28 α(y1=1)=P(x1y1=1)πy1=1=0.50.2=0.1x1=α(y1=2)=P(x1y1=2)πy1=2=0.40.4=0.16α(y1=3)=P(x1y1=3)πy1=3=0.70.4=0.28
    • 时间2:x2=白
      • α ( y 2 = 1 ) = ( Σ y 1 α ( y 1 ) P ( y 2 = 1 ∣ y 1 ) ) P ( x 2 ∣ y 2 ) = ( 0.1 ∗ 0.5 + 0.16 ∗ 0.3 + 0.28 ∗ 0.2 ) ∗ 0.5 = 0.077 α ( y 2 = 2 ) = ( α ( y 1 = 1 ) P ( y 2 = 2 ∣ y 1 = 1 ) + α ( y 1 = 2 ) P ( y 2 = 2 ∣ y 1 = 2 ) + α ( y 1 = 3 ) P ( y 2 = 2 ∣ y 1 = 3 ) ) ∗ P ( x 2 ∣ y 2 = 2 ) = ( 0.1 ∗ 0.2 + 0.16 ∗ 0.5 + 0.28 ∗ 0.3 ) ∗ 0.6 = 0.1104 α ( y 2 = 3 ) = ( 0.1 ∗ 0.3 + 0.16 ∗ 0.2 + 0.28 ∗ 0.5 ) ∗ 0.3 = 0.0606 \alpha(y_2=1)=(\Sigma_{y_1}\alpha(y_1)P(y_2=1|y_1))P(x_2|y_2)=(0.1*0.5+0.16*0.3+0.28*0.2)*0.5=0.077\\ \alpha(y_2=2)=(\alpha(y_1=1)P(y_2=2|y_1=1)+\alpha(y_1=2)P(y_2=2|y_1=2)+\alpha(y_1=3)P(y_2=2|y_1=3))*P(x_2|y_2=2)=(0.1*0.2+0.16*0.5+0.28*0.3)*0.6=0.1104\\ \alpha(y_2=3)=(0.1*0.3+0.16*0.2+0.28*0.5)*0.3=0.0606 α(y2=1)=(Σy1α(y1)P(y2=1y1))P(x2y2)=(0.10.5+0.160.3+0.280.2)0.5=0.077α(y2=2)=(α(y1=1)P(y2=2y1=1)+α(y1=2)P(y2=2y1=2)+α(y1=3)P(y2=2y1=3))P(x2y2=2)=(0.10.2+0.160.5+0.280.3)0.6=0.1104α(y2=3)=(0.10.3+0.160.2+0.280.5)0.3=0.0606
    • 时间3:x3=红
      • α ( y 3 = 1 ) = ( 0.077 ∗ 0.5 + 0.1104 ∗ 0.3 + 0.0606 ∗ 0.2 ) ∗ 0.5 = 0.4187 α ( y 3 = 2 ) = ( 0.077 ∗ 0.2 + 0.1104 ∗ 0.5 + 0.0606 ∗ 0.3 ) ∗ 0.4 = 0.03551 α ( y 3 = 3 ) = ( 0.077 ∗ 0.3 + 0.1104 ∗ 0.2 + 0.0606 ∗ 0.5 ) ∗ 0.7 = 0.05284 p ( x ) = Σ i α ( y T i ) = α ( y 3 = 1 ) + α ( y 3 = 2 ) + α ( y 3 = 3 ) = 0.13022 \alpha(y_3=1)=(0.077*0.5+0.1104*0.3+0.0606*0.2)*0.5=0.4187\\ \alpha(y_3=2)=(0.077*0.2+0.1104*0.5+0.0606*0.3)*0.4=0.03551\\ \alpha(y_3=3)=(0.077*0.3+0.1104*0.2+0.0606*0.5)*0.7=0.05284\\ p(x)=\Sigma_i \alpha(y_T^i)=\alpha(y_3=1)+\alpha(y_3=2)+\alpha(y_3=3)=0.13022 α(y3=1)=(0.0770.5+0.11040.3+0.06060.2)0.5=0.4187α(y3=2)=(0.0770.2+0.11040.5+0.06060.3)0.4=0.03551α(y3=3)=(0.0770.3+0.11040.2+0.06060.5)0.7=0.05284p(x)=Σiα(yTi)=α(y3=1)+α(y3=2)+α(y3=3)=0.13022
  • 后向计算:
    • β ( y 3 = 1 ) = 1 , β ( y 3 = 2 ) = 1 , β ( y 3 = 3 ) = 1 \beta(y_3=1)=1,\beta(y_3=2)=1,\beta(y_3=3)=1 β(y3=1)=1β(y3=2)=1β(y3=3)=1
    • 时间2
      • β ( y 2 ) = Σ y 3 β ( y 3 ) a y 3 , y 2 P ( x 3 ∣ y 3 ) = β ( y 3 = 1 ) a y 3 = 1 , y 2 P ( x 3 ∣ y 3 = 1 ) + β ( y 3 = 2 ) a y 3 = 2 , y 2 P ( x 3 ∣ y 3 = 2 ) + β ( y 3 = 3 ) a y 3 , y 2 P ( x 3 ∣ y 3 = 3 ) \beta(y_2)=\Sigma_{y_3}\beta(y_3)a_{y_3,y_2}P(x_3|y_3)\\ =\beta(y_3=1)a_{y_3=1,y_2}P(x_3|y_3=1)+\beta(y_3=2)a_{y_3=2,y_2}P(x_3|y_3=2)+\beta(y_3=3)a_{y_3,y_2}P(x_3|y_3=3) β(y2)=Σy3β(y3)ay3,y2P(x3y3)=β(y3=1)ay3=1,y2P(x3y3=1)+β(y3=2)ay3=2,y2P(x3y3=2)+β(y3=3)ay3,y2P(x3y3=3)
      • β ( y 2 = 1 ) = 1 ∗ 0.5 ∗ 0.5 + 1 ∗ 0.2 ∗ 0.4 + 1 ∗ 0.2 ∗ 0.7 = 0.47 \beta(y_2=1)=1*0.5*0.5+1*0.2*0.4+1*0.2*0.7=0.47 β(y2=1)=10.50.5+10.20.4+10.20.7=0.47
      • β ( y 2 = 2 ) = 1 ∗ 0.3 ∗ 0.5 + 1 ∗ 0.5 ∗ 0.4 + 1 ∗ 0.2 ∗ 0.7 = 0.49 \beta(y_2=2)=1*0.3*0.5+1*0.5*0.4+1*0.2*0.7=0.49 β(y2=2)=10.30.5+10.50.4+10.20.7=0.49
      • β ( y 2 = 3 ) = 1 ∗ 0.2 ∗ 0.5 + 1 ∗ 0.3 ∗ 0.4 + 1 ∗ 0.5 ∗ 0.7 = 0.57 \beta(y_2=3)=1*0.2*0.5+1*0.3*0.4+1*0.5*0.7=0.57 β(y2=3)=10.20.5+10.30.4+10.50.7=0.57
    • 时间1
      • β ( y 2 = 1 ) = 0.47 ∗ 0.5 ∗ 0.5 + 0.49 ∗ 0.2 ∗ 0.6 + 0.57 ∗ 0.2 ∗ 0.3 = 0.2105 \beta(y_2=1)=0.47*0.5*0.5+0.49*0.2*0.6+0.57*0.2*0.3=0.2105 β(y2=1)=0.470.50.5+0.490.20.6+0.570.20.3=0.2105
      • β ( y 2 = 2 ) = 0.47 ∗ 0.3 ∗ 0.5 + 0.49 ∗ 0.5 ∗ 0.6 + 0.57 ∗ 0.2 ∗ 0.3 = 0.2517 \beta(y_2=2)=0.47*0.3*0.5+0.49*0.5*0.6+0.57*0.2*0.3=0.2517 β(y2=2)=0.470.30.5+0.490.50.6+0.570.20.3=0.2517
      • β ( y 2 = 3 ) = 0.47 ∗ 0.2 ∗ 0.5 + 0.49 ∗ 0.3 ∗ 0.6 + 0.57 ∗ 0.5 ∗ 0.3 = 0.2207 \beta(y_2=3)=0.47*0.2*0.5+0.49*0.3*0.6+0.57*0.5*0.3=0.2207 β(y2=3)=0.470.20.5+0.490.30.6+0.570.50.3=0.2207
        在这里插入图片描述
  • 求最优路径(维特比,贪心)
    • δ ( y 1 ) = α ( y 1 ) = P ( x 1 ∣ y 1 ) π y 1 \delta(y_1)=\alpha(y_1)=P(x_1|y_1)\pi_{y_1} δ(y1)=α(y1)=P(x1y1)πy1
    • δ ( y t + 1 ) = m a x y 1 δ ( y 1 ) P ( y 2 = 1 ∣ y 1 ) ) P ( x 2 ∣ y 2 ) = m a x ( δ ( y 1 = 1 ) P ( y 2 = 2 ∣ y 1 = 1 ) , δ ( y 1 = 2 ) P ( y 2 = 2 ∣ y 1 = 2 ) , δ ( y 1 = 3 ) P ( y 2 = 2 ∣ y 1 = 3 ) ) ∗ P ( x 2 ∣ y 2 = 1 ) \delta(y_{t+1})=max_{y_1}\delta(y_1)P(y_2=1|y_1))P(x_2|y_2)=max(\delta(y_1=1)P(y_2=2|y_1=1),\delta(y_1=2)P(y_2=2|y_1=2),\delta(y_1=3)P(y_2=2|y_1=3))*P(x_2|y_2=1) δ(yt+1)=maxy1δ(y1)P(y2=1y1))P(x2y2)=max(δ(y1=1)P(y2=2y1=1),δ(y1=2)P(y2=2y1=2),δ(y1=3)P(y2=2y1=3))P(x2y2=1)
  • HMM(x–O)
    • 则联合概率 P ( x , y ) = p ( y 1 ) Π t = 1 T − 1 P ( y t + 1 j ∣ y t i ) Π t = 1 T P ( x t ∣ y t ) P(x,y)=p(y_1)\Pi_{t=1}^{T-1}P(y_{t+1}^j|y_t^i)\Pi_{t=1}^{T}P(x_t|y_t) P(x,y)=p(y1)Πt=1T1P(yt+1jyti)Πt=1TP(xtyt)
      • 参数化 P ( x , y ) = π y 1 Π t = 1 T − 1 a y t + 1 , y t Π t = 1 T P ( x t ∣ y t ) P(x,y)=\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t) P(x,y)=πy1Πt=1T1ayt+1,ytΠt=1TP(xtyt)
    • P ( x ) = Σ y 1 , y 2 , . . . , y T P ( x , y ) = Σ y 1 , y 2 , . . . , y T π y 1 Π t = 1 T − 1 a y t + 1 , y t Π t = 1 T P ( x t ∣ y t ) = Σ y P ( x ∣ y ) p ( y ) = Σ y 1 Σ y 2 . . . Σ y T π y 1 Π t = 1 T − 1 a y t + 1 , y t Π t = 1 T P ( x t ∣ y t ) P(x)=\Sigma_{y_1,y_2,...,y_T} P(x,y)=\Sigma_{y_1,y_2,...,y_T}\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t)\\=\Sigma_y P(x|y)p(y)\\=\Sigma_{y_1}\Sigma_{y_2}...\Sigma_{y_T}\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t) P(x)=Σy1,y2,...,yTP(x,y)=Σy1,y2,...,yTπy1Πt=1T1ayt+1,ytΠt=1TP(xtyt)=ΣyP(xy)p(y)=Σy1Σy2...ΣyTπy1Πt=1T1ayt+1,ytΠt=1TP(xtyt)
    • P ( y t ∣ x ) = γ ( y t ) = P ( x 1 , . . . , x t , y t ) P ( x t + 1 , . . . , x n ∣ y t ) P ( x ) = α ( y t ) β ( y t ) P ( x ) P(y_t|x)=\gamma(y_t)=\frac{P(x1,...,x_t,y_t)P(x_{t+1},...,x_n|y_t)}{P(x)}=\frac{\alpha(y_t)\beta(y_t)}{P(x)} P(ytx)=γ(yt)=P(x)P(x1,...,xt,yt)P(xt+1,...,xnyt)=P(x)α(yt)β(yt)
    • 递归的计算
      • α ( y t + 1 ) = Σ y t α ( y t ) a y t + 1 , y t P ( x t + 1 ∣ y t + 1 ) \alpha(y_{t+1})=\Sigma_{y_t}\alpha(y_t)a_{y_{t+1},y_t}P(x_{t+1}|y_{t+1}) α(yt+1)=Σytα(yt)ayt+1,ytP(xt+1yt+1)
        • 初始化 α ( y 0 ) = P ( x 0 , y 0 ) = p ( x 0 ∣ y 0 ) P ( y 0 ) = P ( x 0 ∣ y 0 ) π y 0 \alpha(y_0)=P(x_0,y_0)=p(x_0|y_0)P(y_0)=P(x_0|y_0)\pi_{y_0} α(y0)=P(x0,y0)=p(x0y0)P(y0)=P(x0y0)πy0
      • β ( y t ) = Σ y t + 1 β ( y t + 1 ) a y t + 1 , y t P ( x t + 1 ∣ y t + 1 ) \beta(y_{t})=\Sigma_{y_{t+1}}\beta(y_{t+1})a_{y_{t+1},y_t}P(x_{t+1}|y_{t+1}) β(yt)=Σyt+1β(yt+1)ayt+1,ytP(xt+1yt+1)
        • 初始化 β ( y T ) = 1 就 行 了 \beta(y_T)=1就行了 β(yT)=1
          • 假 定 β ( y T ) 为 单 位 向 量 , 我 们 可 以 准 确 计 算 出 β y T − 1 假定\beta(y_T)为单位向量,我们可以准确计算出\beta_{y_{T-1}} β(yT)βyT1
            • P ( x ) = Σ i α ( y T i ) β ( y T i ) = Σ i α ( y T i ) = P ( x ) P(x)=\Sigma_i\alpha(y_T^i)\beta(y_T^i)=\Sigma_i \alpha(y_T^i)=P(x) P(x)=Σiα(yTi)β(yTi)=Σiα(yTi)=P(x)

哲学理论

  1. (1)随便猜测作为一个分类算法是否一定比SVM差?借此阐述你对“no free lunch theorem”的理解(2)举例阐述你对“Occam’s razor"的理解
    • (1):不一定,在没有先验的情况下,无法得知一个算法是否比另一个算法更好。
    • (2)简单的就是最好的:训练数据来自添加高斯噪声的 y = s i n x ( x ∈ [ 0 , 2 π ] ) y=sinx(x \in [0,2\pi]) y=sinx(x[0,2π]),使用不同的多项式拟合,三次的效果最佳,在同等训练错误率的条件下,简单模型具有更小的方差,又有更好的泛化能力。(复杂模型方差大,偏差小)
    • 丑小鸭定理:
      • 丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大
      • 世界上不存在分类的客观标准,一切分类的标准都是主观的
      • (有假设的)
      • (无假设的前提下)没有最优的特征

adaboost

  1. Adaboost的原理并给出算法,并解释为什么adaboost经常可以在训练误差为0后继续训练还能带来测试误差的继续下降?
    • adaboost原理:通过多个弱学习器的组合,得到一个强分类器,每次训练弱分类器后,对分类错误的样本增加权重使得后续分类器更加”关注“分类错误的样本,以提升分类效果。
    • 算法: { x i , y i } i = 1 n D i 1 = 1 / n f o r i t o T : 对 每 个 分 类 器 训 练 弱 分 类 器 , 给 各 样 本 加 权 重 D i t + 1 = D i t ∗ e − α t y i h t ( x i ) h t ( x ) 为 第 t 个 分 类 器 ; α t = 1 2 l n 1 − ϵ t ϵ t > 0 ; 错 误 率 ϵ = P ( h ( x ) ≠ y ) < 0.5 H f i n a l ( x ) = s i g n ( Σ t = 1 n α t h t ( x ) ) \{x_i,y_i\}_{i=1}^n\\D^1_i=1/n\\for i to T:对每个分类器\\训练弱分类器,给各样本加权重\\D_i^{t+1}=D_i^{t}*e^{-\alpha_ty_ih_t(x_i)}\\h_t(x)为第t个分类器;\alpha_t=\frac{1}{2}ln\frac{1-\epsilon_t}{\epsilon_t}>0;错误率\epsilon=P(h(x)\neq y)<0.5\\H_{final}(x)=sign(\Sigma_{t=1}^n\alpha_th_t(x)) {xi,yi}i=1nDi1=1/nforitoTDit+1=Diteαtyiht(xi)ht(x)t;αt=21lnϵt1ϵt>0;ϵ=P(h(x)=y)<0.5Hfinal(x)=sign(Σt=1nαtht(x))
    • 训练误差为0后,adaboost会继续增大分类间距,提升模型的泛化能力,减少测试误差
      在这里插入图片描述

贝叶斯

贝叶斯判别

贝叶斯判别-正态分布

在这里插入图片描述

  • 贝叶斯判别: p ( w i ∣ x ) = p ( x ∣ w 1 ) p ( w 1 ) Σ i = 1 2 p ( x ∣ w i ) p ( w i ) , 哪 个 大 属 于 哪 一 类 p(wi|x)= {{p(x|w1)p(w1)} \over {\Sigma_{i=1}^2 p(x|wi)p(wi)}},哪个大属于哪一类 p(wix)=Σi=12p(xwi)p(wi)p(xw1)p(w1),
  • 模式类别具有正态概率密度函数 p ( x ∣ w i ) = 1 ( 2 π ) n / 2 ∣ C i ∣ 1 / 2 e x p { − 1 2 ( x − m i ) T C i − 1 ( x − m i ) } p(x|w_i) ={{1} \over {(2\pi)^{n/2}|C_i|^{1/2}}} exp\{ -{{1} \over {2}}(x-m_i)^TC_i^{-1}(x-m_i)\} p(xwi)=(2π)n/2Ci1/21exp{21(xmi)TCi1(xmi)}—一个类别一个,n-n维度
    • C i = ( x − m i ) ( x − m i ) T C_i=(x-m_i)(x-m_i)^T Ci=(xmi)(xmi)T–>x是一列一个样本的,C最终是个33的,m是31的列向量
    • 均值就用均值求,方差就用协方差矩阵求(由贝叶斯估计、极大似然估计都可以得到)
  • 判别面:第i类的 f ( x ) 常 数 , g i ( x ) = l n p ( x ∣ w i ) + l n p ( w i ) = l n p ( w i ) − 1 2 l o g ∣ C i ∣ − 1 2 ( x − m i ) T C i − 1 ( x − m i ) f(x)常数,g_i(x)=lnp(x|w_i)+lnp(w_i)\\=lnp(w_i)-\frac{1}{2}log|C_i|-\frac{1}{2}(x-m_i)^TC_i^{-1}(x-m_i) f(x)gi(x)=lnp(xwi)+lnp(wi)=lnp(wi)21logCi21(xmi)TCi1(xmi)
  • 二分类的界面: g 1 ( x ) − g 2 ( x ) = l n p ( w 1 ) + l n p ( w 2 ) − 1 2 l o g ∣ C 1 ∣ − 1 2 ( x − m 1 ) T C 1 − 1 ( x − m 1 ) + 1 2 l o g ∣ C 2 ∣ + 1 2 ( x − m 2 ) T C 2 − 1 ( x − m 2 ) g_1(x)-g_2(x)=lnp(w_1)+lnp(w_2)-\frac{1}{2}log|C_1|-\frac{1}{2}(x-m_1)^TC_1^{-1}(x-m_1)+\frac{1}{2}log|C_2|+\frac{1}{2}(x-m_2)^TC_2^{-1}(x-m_2) g1(x)g2(x)=lnp(w1)+lnp(w2)21logC121(xm1)TC11(xm1)+21logC2+21(xm2)TC21(xm2)
  • 二分类的界面(C1=C2=C): g 1 ( x ) − g 2 ( x ) = l n p ( w 1 ) − l n p ( w 2 ) − 1 2 ( x − m 1 ) T C 1 − 1 ( x − m 1 ) + 1 2 ( x − m 2 ) T C 2 − 1 ( x − m 2 ) = l n p ( w 1 ) − l n p ( w 2 ) + ( m 1 − m 2 ) T C − 1 x − 1 2 m 1 T C − 1 m 1 + 1 2 m 2 T C − 1 m 2 = 0 g_1(x)-g_2(x)=lnp(w_1)-lnp(w_2)-\frac{1}{2}(x-m_1)^TC_1^{-1}(x-m_1)+\frac{1}{2}(x-m_2)^TC_2^{-1}(x-m_2)\\=lnp(w_1)-lnp(w_2)+(m_1-m_2)^TC^{-1}x-\frac{1}{2}m_1^TC^{-1}m_1+\frac{1}{2}m_2^TC^{-1}m_2=0 g1(x)g2(x)=lnp(w1)lnp(w2)21(xm1)TC11(xm1)+21(xm2)TC21(xm2)=lnp(w1)lnp(w2)+(m1m2)TC1x21m1TC1m1+21m2TC1m2=0
  • X 1 = [ 0 1 1 1 0 0 0 1 0 0 1 0 ] X1=\left[ \begin{matrix}0&1&1&1\\0&0&0&1\\0&0&1&0& \end{matrix} \right] X1=000100101110–一列一个样本,一行一个维度
  • X 2 = [ 0 0 0 1 1 1 0 1 0 1 1 1 ] X2=\left[ \begin{matrix}0&0&0&1\\1&1&0&1\\0&1&1&1& \end{matrix} \right] X2=010011001111
  • m 1 = 1 4 ( 3 , 1 , 1 ) T , m 2 = 1 4 ( 1 , 3 , 3 ) T m1=\frac{1}{4}(3,1,1)^T,m_2=\frac{1}{4}(1,3,3)^T m1=41(3,1,1)T,m2=41(1,3,3)T
  • C 1 = ( X 1 − m 1 ) ( X 1 − m 1 ) T = 1 16 [ 12 4 4 4 12 − 4 4 − 4 12 ] C 2 = ( X 2 − m 2 ) ( X 2 − m 2 ) T = 1 16 [ 12 4 4 4 12 − 4 4 − 4 12 ] C = C 1 = C 2 C_1=(X1-m1)(X1-m1)^T=\frac{1}{16}\left[ \begin{matrix}12&4&4\\4&12&-4\\4&-4&12 \end{matrix} \right]\\C2=(X2-m2)(X2-m2)^T=\frac{1}{16}\left[ \begin{matrix}12&4&4\\4&12&-4\\4&-4&12 \end{matrix} \right]\\C=C1=C2 C1=(X1m1)(X1m1)T=161124441244412C2=(X2m2)(X2m2)T=161124441244412C=C1=C2

贝叶斯估计

在这里插入图片描述在这里插入图片描述

  • 图 中 σ − > σ 2 图中\sigma->\sigma^2 σ>σ2
  • p ( β ∣ y ) = p ( y ∣ β ) p ( β ) p ( y ) p(\beta|y)=\frac{p(y|\beta)p(\beta)}{p(y)} p(βy)=p(y)p(yβ)p(β)
  • p ( y ∣ β ) = 1 ( 2 π ) n / 2 ∣ σ 2 I ∣ 1 / 2 e x p { − 1 2 ( y − X β ) T ( σ 2 I ) − 1 ( y − X β ) } p ( β ) = 1 ( 2 π ) n / 2 ∣ τ I ∣ 1 / 2 e x p { − 1 2 ( β ) T ( τ I ) − 1 ( β ) } p(y|\beta)={{1} \over {(2\pi)^{n/2}|\sigma^2I|^{1/2}}} exp\{ -{{1} \over {2}}(y-X\beta)^T(\sigma^2I)^{-1}(y-X\beta)\}\\ p(\beta)={{1} \over {(2\pi)^{n/2}|\tau I|^{1/2}}} exp\{ -{{1} \over {2}}(\beta)^T(\tau I)^{-1}(\beta)\} p(yβ)=(2π)n/2σ2I1/21exp{21(yXβ)T(σ2I)1(yXβ)}p(β)=(2π)n/2τI1/21exp{21(β)T(τI)1(β)}
  • l o g p ( β ∣ y ) = l o g ( p ( y ∣ β ) + l o g p ( β ) + C = − 1 2 σ 2 ( y − X β ) 2 − 1 2 τ ∣ ∣ β ∣ ∣ 2 + C ′ = − 1 2 σ 2 ( ( y − X β ) 2 + σ 2 τ ∣ ∣ β ∣ ∣ 2 ) log p(\beta|y)=log(p(y|\beta)+logp(\beta)+C\\=-\frac{1}{2\sigma^2}(y-X\beta)^2-\frac{1}{2\tau}||\beta||^2+C'\\ =-\frac{1}{2\sigma^2}((y-X\beta)^2+\frac{\sigma^2}{\tau}||\beta||^2) logp(βy)=log(p(yβ)+logp(β)+C=2σ21(yXβ)22τ1β2+C=2σ21((yXβ)2+τσ2β2)

贝叶斯决策

在这里插入图片描述

  • 最小错误率就是最普通的贝叶斯决策 I 12 = p ( x ∥ w 1 ) p ( x ∥ w 2 ) > p ( w 2 ) p ( w 1 ) , 分 界 面 为 d ( x ) = p ( x ∥ w 1 ) p ( x ∥ w 2 ) − p ( w 2 ) p ( w 1 ) I_{12}= {{p(x\|w1)} \over {p(x\|w2)}} >{ {p(w2)} \over {p(w1)}},分界面为d(x)= {{p(x\|w1)} \over {p(x\|w2)}}-{ {p(w2)} \over {p(w1)}} I12=p(xw2)p(xw1)>p(w1)p(w2)d(x)=p(xw2)p(xw1)p(w1)p(w2)
  • 最小风险的贝叶斯决策 r 1 = λ 11 p ( x ∣ w 1 ) p ( w 1 ) + λ 12 p ( x ∣ w 2 ) p ( w 2 ) r 2 = λ 21 p ( x ∣ w 1 ) p ( w 1 ) + λ 22 p ( x ∣ w 2 ) p ( w 2 ) r 1 > r 2 = > ( λ 11 − λ 21 ) p ( x ∣ w 1 ) p ( w 1 ) + ( λ 12 − λ 22 ) p ( x ∣ w 2 ) p ( w 2 ) > 0 p ( x ∣ w 1 ) p ( x ∣ w 2 ) > ( λ 12 − λ 22 ) p ( w 2 ) ( λ 11 − λ 21 ) p ( w 1 ) 分 界 面 : d ( x ) = r 1 − r 2 r_1=\lambda_{11}p(x|w_1)p(w_1)+\lambda_{12}p(x|w_2)p(w_2)\\ r_2=\lambda_{21}p(x|w_1)p(w_1)+\lambda_{22}p(x|w_2)p(w_2)\\ r_1>r_2=>(\lambda_{11}-\lambda_{21})p(x|w_1)p(w_1)+(\lambda_{12}-\lambda_{22})p(x|w_2)p(w_2)>0\\ \frac{p(x|w_1)}{p(x|w_2)}>\frac{(\lambda_{12}-\lambda_{22})p(w_2)}{(\lambda_{11}-\lambda_{21})p(w_1)}\\分界面:d(x)=r1-r2 r1=λ11p(xw1)p(w1)+λ12p(xw2)p(w2)r2=λ21p(xw1)p(w1)+λ22p(xw2)p(w2)r1>r2=>(λ11λ21)p(xw1)p(w1)+(λ12λ22)p(xw2)p(w2)>0p(xw2)p(xw1)>(λ11λ21)p(w1)(λ12λ22)p(w2)d(x)=r1r2
w1w2------------阈值------------
p(wi|x)(max)p(w1|x)>p(w2|x)p(w1|x)>p(w2|x)1
p(x|wi)p(wi)(max)p(x|w1)p(w1) > p(x|w2)p(w2)p(x|w1)p(w1) < p(x|w2)p(w2)1
最小错误率 I 12 I_{12} I12似然比(分割) I 12 = p ( x ∥ w 1 ) p ( x ∥ w 2 ) > p ( w 2 ) p ( w 1 ) I_{12}= {{p(x\|w1)} \over {p(x\|w2)}} >{ {p(w2)} \over {p(w1)}} I12=p(xw2)p(xw1)>p(w1)p(w2) I 21 = p ( x ∥ w 1 ) p ( x ∥ w 2 ) < p ( w 2 ) p ( w 1 ) I_{21}={{p(x\|w1)} \over {p(x\|w2)}} < {{p(w2)} \over {p(w1)}} I21=p(xw2)p(xw1)<p(w1)p(w2) θ 21 = p ( w 2 ) p ( w 1 ) \theta_{21}= {{p(w2)} \over {p(w1)}} θ21=p(w1)p(w2)
条件平均风险(min)r1(x)<r2(x)r1(x)>r2(x) θ 21 = p ( w 2 ) p ( w 1 ) L 21 − L 22 L 12 − L 11 \theta_{21}= {{p(w2)} \over {p(w1)}}{{L_{21}-L_{22}} \over {L_{12}-L_{11}}} θ21=p(w1)p(w2)L12L11L21L22(L的定义和上面相反)
正态模式( max)d1(x)>d2(x)d2(x)>d1(x) d i ( x ) = l n p ( w i ) − 1 2 l n ∥ C i ∥ − 1 2 ( x − m i ) T C i − 1 ( x − m i ) , d 1 ( x ) − d 2 ( x ) = 0 为 判 别 界 面 d_i(x)=ln p(w_i)-{{1} \over {2}}ln\|C_i\| -{{1} \over {2}}(x-m_i)^TC_i^{-1}(x-m_i) ,d_1(x)-d_2(x)=0为判别界面 di(x)=lnp(wi)21lnCi21(xmi)TCi1(xmi)d1(x)d2(x)=0

朴素贝叶斯

  • p ( w i ∣ x ) = p ( x ∣ w 1 ) p ( w 1 ) Σ i = 1 2 p ( x ∣ w i ) p ( w i ) p ( x ∣ w 1 ) = Π i p ( x i ∣ w 1 ) − − 统 计 得 到 p(wi|x)= {{p(x|w1)p(w1)} \over {\Sigma_{i=1}^2 p(x|wi)p(wi)}}\\p(x|w_1)=\Pi_ip(x_i|w_1)--统计得到 p(wix)=Σi=12p(xwi)p(wi)p(xw1)p(w1)p(xw1)=Πip(xiw1)
    在这里插入图片描述

半监督无监督

聚类

k-均值聚类GMM层次聚类基于密度的聚类
算法随机中心,迭代更新簇中心EM求解;E步是软划分的k-means;M步不仅估计了均值还有协方差;属于所有簇概率均等时一样树;凝聚式,分列式连接性,最大性的点属于簇
局限性不同尺寸、密度、非球形不可用;扰动影响大-贪心(拆分和合并不可逆);没有全局目标函数;对噪声和离群点敏感;难处理不同尺寸的簇和凸的簇;成链,误把大簇分裂参数确定困难 ,不适合密度差异大的数据集;对变化的维度和高维数据不友好
损失函数最小平方距离和最小化负对数似然没有优化一个全局的目标函数
划分点到簇的硬划分从属关系的软划分层次划分,拆分合并不可逆
优点--不需要确定k,聚类结果可能对应着有意义的分类体系不需要确定簇的数量;任意形状;对离群点稳定
超参数确定间隔统计;交叉检验;簇的稳定性;非参数方法eps;minPts=k:同一个簇的点,到他们k最近邻的距离相同(画出来找)
预处理归一化;消除离群点
后处理删除小簇;分裂远;合并近的
收敛收敛(J单调下降)收敛
最优局部极小局部极小
假设簇是球的且每个簇的概率相等(欧式距离、质心)簇是高斯分布,属于每个簇的概率不同,但每个簇都有可能,球或椭球形

GMM+EM+极大似然估计

在这里插入图片描述

  • 目标函数: L = l o g p ( X l , Y l , X u ∣ θ ) = Σ i = 1 l l o g p ( y i ∣ θ ) p ( x i ∣ y i , θ ) + Σ i = l + 1 m l o g ( Σ k = 1 N p ( y i = k ∣ θ ) p ( x i ∣ y i = k , θ ) ) , θ i = α i , μ i , Σ i L=logp(X_l,Y_l,X_u|\theta)=\Sigma_{i=1}^llogp(y_i|\theta)p(x_i|y_i,\theta)+\Sigma_{i=l+1}^mlog(\Sigma_{k=1}^Np(y_i=k|\theta)p(x_i|y_i=k,\theta)),\theta_i={\alpha_i,\mu_i,\Sigma_i} L=logp(Xl,Yl,Xuθ)=Σi=1llogp(yiθ)p(xiyi,θ)+Σi=l+1mlog(Σk=1Np(yi=kθ)p(xiyi=k,θ)),θi=αi,μi,Σi
  • = Σ i = 1 l l o g α y i N ( x i ∣ θ y i ) + Σ i = l m l o g Σ k = 1 N α k N ( x i ∣ θ k ) = Σ i = 1 l ( l o g α y i − n 2 l o g ( 2 π ) − 1 2 l o g ( ∣ Σ y i ∣ ) − ( x i − μ y i ) T Σ y i − 1 ( x i − μ y i ) + Σ i = l m l o g ( Σ k = 1 N ( α k 1 ( 2 π ) n / 2 ∣ Σ k ∣ 1 / 2 e x p { − 1 2 ( x i − μ k ) T Σ k − 1 ( x i − μ k ) } ) ) =\Sigma_{i=1}^llog \alpha_{y_i}N(x_i|\theta_{y_i})+\Sigma_{i=l}^mlog\Sigma_{k=1}^N\alpha_kN(x_i|\theta_k) \\=\Sigma_{i=1}^l(log\alpha_{y_i}-\frac{n}{2}log(2\pi)-\frac{1}{2}log(|\Sigma_{y_i}|)-(x_i-\mu_{y_i})^T\Sigma_{y_i}^{-1}(x_i-\mu_{y_i})+\Sigma_{i=l}^mlog(\Sigma_{k=1}^N(\alpha_k{{1} \over {(2\pi)^{n/2}|\Sigma_k|^{1/2}}} exp\{ -{{1} \over {2}}(x_i-\mu_k)^T{\Sigma_k}^{-1}(x_i-\mu_k)\})) =Σi=1llogαyiN(xiθyi)+Σi=lmlogΣk=1NαkN(xiθk)=Σi=1l(logαyi2nlog(2π)21log(Σyi)(xiμyi)TΣyi1(xiμyi)+Σi=lmlog(Σk=1N(αk(2π)n/2Σk1/21exp{21(xiμk)TΣk1(xiμk)}))
  • E: 求 γ i k = p ( y i = k ∣ x i ) = α k N ( x i ∣ θ k ) Σ k = 1 N α k N ( x i ∣ θ k ) 求\gamma_{ik}=p(y_i=k|x_i)=\frac{\alpha_kN(x_i|\theta_k)}{\Sigma_{k=1}^N\alpha_kN(x_i|\theta_k)} γik=p(yi=kxi)=Σk=1NαkN(xiθk)αkN(xiθk)
  • M: μ k = 1 Σ i = l m γ i k + l k ( Σ i ∈ D l , y i = k x i + Σ i = l m γ i k x i ) Σ i = 1 Σ i = l m γ i k + l k ( Σ i ∈ D l , y i = k ( x i − μ k ) ( x i − μ k ) T + Σ i = l m γ i k ( x i − μ k ) ( x i − μ k ) T ) α k = Σ i = l m γ i k + l k m \mu_k=\frac{1}{\Sigma_{i=l}^m\gamma_{ik}+l_k}(\Sigma_{i\in D_l ,y_i=k}x_i+\Sigma_{i=l}^m\gamma_{ik}x_i)\\ \Sigma_i=\frac{1}{\Sigma_{i=l}^m\gamma_{ik}+l_k}(\Sigma_{i\in D_l ,y_i=k}(x_i-\mu_k)(x_i-\mu_k)^T+\Sigma_{i=l}^m\gamma_{ik}(x_i-\mu_k)(x_i-\mu_k)^T)\\ \alpha_k=\frac{\Sigma_{i=l}^m\gamma_{ik}+l_k}{m} μk=Σi=lmγik+lk1(ΣiDl,yi=kxi+Σi=lmγikxi)Σi=Σi=lmγik+lk1(ΣiDl,yi=k(xiμk)(xiμk)T+Σi=lmγik(xiμk)(xiμk)T)αk=mΣi=lmγik+lk
有监督无监督半监督
目标函数 L = l o g p ( X l , Y l ∥ θ ) = Σ i = 1 l l o g p ( y i ∥ θ ) p ( x i ∥ y i , θ ) = Σ i = 1 l l o g α y i N ( x i ∥ θ y i ) L=logp(X_l,Y_l\|\theta)=\Sigma_{i=1}^llogp(y_i\|\theta)p(x_i\|y_i,\theta)\\=\Sigma_{i=1}^llog \alpha_{y_i}N(x_i\|\theta_{y_i}) L=logp(Xl,Ylθ)=Σi=1llogp(yiθ)p(xiyi,θ)=Σi=1llogαyiN(xiθyi) p ( x ; θ ) = Π i N Σ k = 1 K π k N ( x i ∥ μ k , Σ k ) p(x;\theta)=\Pi_i^N\Sigma_{k=1}^K\pi_kN(x_i\|\mu_k,\Sigma_k) p(x;θ)=ΠiNΣk=1KπkN(xiμk,Σk) P ( x l , y l , x u ∥ θ ) = Σ i = 1 l l o g α y i N ( x i ∥ θ y i ) + Σ i = l m l o g Σ k = 1 N α k N ( x i ∥ θ k ) P(x_l,y_l,x_u\|\theta)=\Sigma_{i=1}^llog \alpha_{y_i}N(x_i\|\theta_{y_i})+\Sigma_{i=l}^mlog\Sigma_{k=1}^N\alpha_kN(x_i\|\theta_k) P(xl,yl,xuθ)=Σi=1llogαyiN(xiθyi)+Σi=lmlogΣk=1NαkN(xiθk)
E求导解决 求 γ i k = p ( y i = k ∥ x i ) = α k N ( x i ∥ θ k ) Σ k = 1 N α k N ( x i ∥ θ k ) 求\gamma_{ik}=p(y_i=k\|x_i)=\frac{\alpha_kN(x_i\|\theta_k)}{\Sigma_{k=1}^N\alpha_kN(x_i\|\theta_k)} γik=p(yi=kxi)=Σk=1NαkN(xiθk)αkN(xiθk) 求 γ i k = p ( y i = k ∥ x i ) = α k N ( x i ∥ θ k ) Σ k = 1 N α k N ( x i ∥ θ k ) 求\gamma_{ik}=p(y_i=k\|x_i)=\frac{\alpha_kN(x_i\|\theta_k)}{\Sigma_{k=1}^N\alpha_kN(x_i\|\theta_k)} γik=p(yi=kxi)=Σk=1NαkN(xiθk)αkN(xiθk)
M μ k = 1 l k ( Σ i ∈ D l , y i = k x i ) Σ i = 1 l k ( Σ i ∈ D l , y i = k ( x i − μ k ) ( x i − μ k ) T ) α k = l k m \mu_k=\frac{1}{l_k}(\Sigma_{i\in D_l ,y_i=k}x_i)\\\Sigma_i=\frac{1}{l_k}(\Sigma_{i\in D_l ,y_i=k}(x_i-\mu_k)(x_i-\mu_k)^T)\\\alpha_k=\frac{l_k}{m} μk=lk1(ΣiDl,yi=kxi)Σi=lk1(ΣiDl,yi=k(xiμk)(xiμk)T)αk=mlk μ k = Σ i γ ( z i k ) x i γ ( z i k ) π k = Σ i γ ( z i k ) N Σ k = Σ i γ ( z i k ) ( x i − μ k ) ( x i − μ k ) T γ ( z i k ) \mu_k=\frac{\Sigma_i\gamma(z_{ik})x_i}{\gamma(z_{ik})}\\\pi_k=\frac{\Sigma_i\gamma(z_{ik})}{N}\\\Sigma_k=\frac{\Sigma_i\gamma(z_{ik})(x_i-\mu_k)(x_i-\mu_k)^T}{\gamma(z_{ik})} μk=γ(zik)Σiγ(zik)xiπk=NΣiγ(zik)Σk=γ(zik)Σiγ(zik)(xiμk)(xiμk)T μ k = 1 Σ i = l m γ i k + l k ( Σ i ∈ D l , y i = k x i + Σ i = l m γ i k x i ) Σ i = 1 Σ i = l m γ i k + l k ( Σ i ∈ D l , y i = k ( x i − μ k ) ( x i − μ k ) T + Σ i = l m γ i k ( x i − μ k ) ( x i − μ k ) T ) α k = Σ i = l m γ i k + l k m \mu_k=\frac{1}{\Sigma_{i=l}^m\gamma_{ik}+l_k}(\Sigma_{i\in D_l ,y_i=k}x_i+\Sigma_{i=l}^m\gamma_{ik}x_i)\\\Sigma_i=\frac{1}{\Sigma_{i=l}^m\gamma_{ik}+l_k}(\Sigma_{i\in D_l ,y_i=k}(x_i-\mu_k)(x_i-\mu_k)^T+\Sigma_{i=l}^m\gamma_{ik}(x_i-\mu_k)(x_i-\mu_k)^T)\\\alpha_k=\frac{\Sigma_{i=l}^m\gamma_{ik}+l_k}{m} μk=Σi=lmγik+lk1(ΣiDl,yi=kxi+Σi=lmγikxi)Σi=Σi=lmγik+lk1(ΣiDl,yi=k(xiμk)(xiμk)T+Σi=lmγik(xiμk)(xiμk)T)αk=mΣi=lmγik+lk
半监督=无监督+有监督
  • 分析高斯混合模型和k-means的异同
    • ;E步是软划分的k-means;M步不仅估计了均值还有协方差;属于所有簇概率均等时两者等价

判别函数

线性判别和非线性判别

  • 试阐述线性判别和非线性判别的基本概念,并说明为何有了线性判别还要有非线性判别?假设有两类模式,每类模式有5个3维特征的样本,且良好分布,问线性可分情况下权重需要多少系数分量?假如需要建立二次多项式判别函数,需要多少系数分量?
    • 线性判别:以线性函数为判别函数的模式分类
    • 非线性判别:使用非线性函数作为判别函数的模式分类
    • 因为存在线性不可分的模式,无法用线性判别函数进行模式分类
    • C n + r r : n 维 数 据 , 采 用 r 次 多 项 式 的 参 数 个 数 C_{n+r}^r:n维数据,采用r次多项式的参数个数 Cn+rr:nr
    • 线 性 可 分 : C 4 1 = 4 二 次 : C 3 + 2 2 = 10 线性可分:C_4^1=4\\ 二次:C_{3+2}^2=10 线C41=4C3+22=10
线性判别函数的数量(M分类
  • 情况1:分为自己和其他所有:M个判别函数
  • 情况2:分为i和j类:M(M-1)/2个判别函数
  • 情况3:M个
想法…判别函数……判别…优点缺点
二分类区分为 ω 1 和 ω 2 \omega_1 和 \omega_2 ω1ω2(不是1就是2) d ( x ) = w 1 x 1 + w 2 x 2 + w 3 = 0 , 1 个 d(x)=w_1x_1+w_2x_2+w_3=0,\\1个 d(x)=w1x1+w2x2+w3=01 d ( x ) > 0 x ∈ ω 1 ; d ( x ) < 0 x ∈ ω 2 d(x)>0 x \in \omega_1;\\d(x)<0 x \in \omega_2 d(x)>0xω1;d(x)<0xω2
M分类1区分为 ω 1 和 非 ω 1 \omega_1 和 非\omega_1 ω1ω1 d i ( x ) = w 1 x 1 + w 2 x 2 + w 3 x 3 + . . . + w n x n + w n + 1 = w T x + w n + 1 = 0 , M 个 d_i(x)=w_1x_1+w_2x_2+w_3x_3+...+w_nx_n+w_{n+1}=w^Tx+w_{n+1}=0,\\M个 di(x)=w1x1+w2x2+w3x3+...+wnxn+wn+1=wTx+wn+1=0M d i ( x ) > 0 且 d j ( x ) < 0 , i ≠ j , i f x ∈ ω i d_i(x)>0 \\且 d_j(x)<0,\\i \neq j,\\if x \in \omega_i di(x)>0dj(x)<0,i=j,ifxωi简单线性可分性差,IR区域最大
M分类2区分为 ω i 和 ω j \omega_i 和 \omega_j ωiωj,一对一对的分 d i j ( x ) = w 1 x 1 + w 2 x 2 + w 3 x 3 + . . . + w n x n + w n + 1 = w T x + w n + 1 = 0 , d i j ( x ) = − d j i ( x ) ; M ( M − 1 ) / 2 个 d_{ij}(x)=w_1x_1+w_2x_2+w_3x_3+...+w_nx_n+w_{n+1}=w^Tx+w_{n+1}=0,\\d_{ij}(x)=-d_{ji}(x);\\M(M-1)/2个 dij(x)=w1x1+w2x2+w3x3+...+wnxn+wn+1=wTx+wn+1=0dij(x)=dji(x);M(M1)/2 d i j ( x ) > 0 且 i ≠ j , , 任 意 j , i f x ∈ ω i d_{ij}(x)>0 \\且i \neq j,,任意j,\\if x \in \omega_i dij(x)>0i=j,,j,ifxωi简单线性可分性差,IR区域小,判别函数太多
M分类3_1区分为 ω i 和 ω j \omega_i 和 \omega_j ωiωj,一对一对的分 d i j ( x ) = d i ( x ) − d j ( x ) , d i j ( x ) = − d j i ( x ) ; M 个 d i ( x ) , M ( M − 1 ) / 2 个 判 别 面 d_{ij}(x)=d_i(x)-d_j(x),\\d_{ij}(x)=-d_{ji}(x);\\M个d_i(x),M(M-1)/2个判别面 dij(x)=di(x)dj(x)dij(x)=dji(x);Mdi(x),M(M1)/2 d i j ( x ) > 0 且 i ≠ j , , 任 意 j , i f x ∈ ω i d_{ij}(x)>0 \\且i \neq j,,任意j,\\if x \in \omega_i dij(x)>0i=j,,j,ifxωi无IR线性可分性差,IR区域无
M分类3_2区分为 ω i 和 ω j \omega_i 和 \omega_j ωiωj,一对一对的分 d i j ( x ) = d i ( x ) − d j ( x ) , d i j ( x ) = − d j i ( x ) ; M 个 d i ( x ) , M ( M − 1 ) / 2 个 判 别 面 d_{ij}(x)=d_i(x)-d_j(x),\\d_{ij}(x)=-d_{ji}(x);\\M个d_i(x),M(M-1)/2个判别面 dij(x)=di(x)dj(x)dij(x)=dji(x);Mdi(x),M(M1)/2 d i ( x ) > d j ( x ) 且 i ≠ j , 任 意 j , i f x ∈ ω i d_{i}(x)>d_j(x) \\且i \neq j,任意j,\\if x \in \omega_i di(x)>dj(x)i=j,j,ifxωi无IR线性可分性差,IR区域无
非线性f(x)核函数:非线性x–>线性的x*=f(x)--从非线性变成了线性|x|<|x*|
非线性分段判别函数分段函数逼近曲线--从非线性变成了线性-
最小距离分类分段函数逼近曲线 d ( x ) = ∥ x − μ 1 ∥ 2 − ∥ x − μ 2 ∥ 2 , μ 为 各 类 中 心 d(x)=\|x-\mu_1\|^2-\|x-\mu_2\|^2,\\\mu为各类中心 d(x)=xμ12xμ22μ d ( x ) > 0 x ∈ ω 1 ; d ( x ) < 0 x ∈ ω 2 d(x)>0 x \in \omega_1;\\d(x)<0 x \in \omega_2 d(x)>0xω1;d(x)<0xω2从非线性变成了线性-
模式空间与权空间模式空间w为面/线的法向量; 权空间x为法向量 d ( x ) = w T x = 0 d(x)=w^Tx=0 d(x)=wTx=0 法 向 量 方 向 为 正 的 方 向 , d ( x ) > 0 x ∈ ω 1 ; d ( x ) < 0 x ∈ ω 2 法向量方向为正的方向,d(x)>0 x \in \omega_1;\\d(x)<0 x \in \omega_2 d(x)>0xω1;d(x)<0xω2--
Fisher准则函数(降维,找 J F ( w ) = ( m 1 ( y ) − m 2 ( y ) ) 2 S 1 2 ( y ) + S 1 2 ( y ) J_F(w)={{(m_1(y)-m_2(y))^2}\over {S_1^2(y)+S_1^2(y)}} JF(w)=S12(y)+S12(y)(m1(y)m2(y))2最大的w)d维空间–>1维且仍可分, y n = w T x n y_n=w^Tx_n yn=wTxn;找类间距离大,类内距离小的最佳投影方向; d ( y n ) = T ( 阈 值 ) d(y_n)=T(阈值) d(yn)=T() d ( y n ) > T x ∈ ω 1 ; d ( y n ) < T x ∈ ω 2 d(y_n)>T x \in \omega_1; d(y_n)<T x \in \omega_2 d(yn)>Txω1;d(yn)<Txω2降维-
决策树二叉树,每个特征分一次符合特征就专项分支到哪个叶子,就是哪一类概念简单、直观、便于解释,可用先验知识不易得到最优

感知机

  • 描述感知机模型,并给出权值学习算法。在此基础上,以仅有一个隐含层的三层神将网络为例,形式化描述BP算法中是如何对隐含层和神经元之间的连接权重调整的。
    • 感知机模型: y = W T x , > 0 分 为 w 1 类 , < 0 分 为 w 2 类 ; 分 错 : W t + 1 = W t + y i ∗ x i , 分 对 了 : W t + 1 = W t y=W^Tx,>0分为w1类,<0分为w2类;分错:W_{t+1}=W_t+y_i*x_i,分对了:W_{t+1}=W_t y=WTx,>0w1<0w2Wt+1=Wt+yixiWt+1=Wt
      在这里插入图片描述在这里插入图片描述

势函数法

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

9.势函数法(非线性)
  • 一个样本一个势函数
  • 计算积累位势函数K(x)
    • x k + 1 ∈ ω 1 : K k ( x k + 1 ) < 0 x_{k+1} \in \omega_1:K_k(x_{k+1})<0 xk+1ω1Kk(xk+1)<0则分错了:修改K(x)
    • x k + 1 ∈ ω 1 : K k ( x k + 1 ) > 0 x_{k+1} \in \omega_1:K_k(x_{k+1})>0 xk+1ω1Kk(xk+1)>0正确,不变
  • 初始化 K 1 ( x ) = K_{1}(x)= K1(x)=
    • K ( x , x 1 ) , x 1 ∈ ω 1 K(x,x_1),x_1 \in \omega_1 K(x,x1),x1ω1
    • − K ( x , x 1 ) , x 1 ∈ ω 2 -K(x,x_1),x_1 \in \omega_2 K(x,x1),x1ω2
  • 迭代
    • 分错:
      • K k + 1 ( x ) = K k ( x ) + K ( x , x k + 1 ) , x k + 1 ∈ ω 1 K_{k+1}(x)=K_{k}(x)+K(x,x_{k+1}),x_{k+1} \in \omega_1 Kk+1(x)=Kk(x)+K(x,xk+1),xk+1ω1
      • K k + 1 ( x ) = K k ( x ) − K ( x , x k + 1 ) , x k + 1 ∈ ω 2 K_{k+1}(x)=K_{k}(x)-K(x,x_{k+1}),x_{k+1} \in \omega_2 Kk+1(x)=Kk(x)K(x,xk+1),xk+1ω2
    • 正确:
      • 不变
  • x = ( x 1 , x 2 ) T , x k = ( x k 1 , x k 2 ) T x=(x_1,x_2)^T,x_k=(x_{k_1},x_{k_2})^T x=(x1,x2)T,xk=(xk1xk2)T
  • 如何选择势函数
    1. K(x,xk)=K(xk,x)<==>当且仅当x=xk时最大
    2. x距离xk越远越小,无穷远则趋于0
    3. 光滑的,x距离xk越远越小
9.1Hermite
  • Hermite多项式
    • H 0 ( x ) = 1 H_0(x)=1 H0(x)=1
    • H 1 ( x ) = 2 x H_1(x)=2x H1(x)=2x——一次多项式的K取到这里
    • H 2 ( x ) = 4 x 2 − 2 H_2(x)=4x^2-2 H2(x)=4x22————二次多项式的K取到这里
  • 建立二维正交函数集:(一次的,前两项排列组合
    • ϕ 1 ( x ) = ϕ 1 ( x 1 , x 2 ) = H 0 ( x 1 ) H 0 ( x 2 ) = 1 \phi_1(x)=\phi_1(x_1,x_2)=H_0(x_1)H_0(x_2)=1 ϕ1(x)=ϕ1(x1,x2)=H0(x1)H0(x2)=1
    • ϕ 2 ( x ) = ϕ 2 ( x 1 , x 2 ) = H 1 ( x 1 ) H 0 ( x 2 ) = 2 x 1 \phi_2(x)=\phi_2(x_1,x_2)=H_1(x_1)H_0(x_2)=2x_1 ϕ2(x)=ϕ2(x1,x2)=H1(x1)H0(x2)=2x1
    • ϕ 3 ( x ) = ϕ 3 ( x 1 , x 2 ) = H 0 ( x 1 ) H 1 ( x 2 ) = 2 x 2 \phi_3(x)=\phi_3(x_1,x_2)=H_0(x_1)H_1(x_2)=2x_2 ϕ3(x)=ϕ3(x1,x2)=H0(x1)H1(x2)=2x2
    • ϕ 4 ( x ) = ϕ 4 ( x 1 , x 2 ) = H 1 ( x 1 ) H 1 ( x 2 ) = 4 x 1 x 2 \phi_4(x)=\phi_4(x_1,x_2)=H_1(x_1)H_1(x_2)=4x_1x_2 ϕ4(x)=ϕ4(x1,x2)=H1(x1)H1(x2)=4x1x2
  • K ( x , x k ) = Σ i = 1 4 ϕ i ( x ) ϕ i ( x k ) = 1 + 4 x 1 x k 1 + 4 x 2 x k 2 + 16 x 1 x k 1 x 2 x k 2 K(x,x_k)=\Sigma_{i=1}^4\phi_i(x)\phi_i(x_k)=1+4x_1x_{k_1}+4x_2x_{k_2}+16x_1x_{k_1}x_2x_{k_2} K(x,xk)=Σi=14ϕi(x)ϕi(xk)=1+4x1xk1+4x2xk2+16x1xk1x2xk2
    • 对样本 x 1 = ( 1 , 0 ) T : K 1 ( x ) = K 1 ( x , x 1 ) = 1 + 4 x 1 x_1=(1,0)^T:K_1(x)=K_1(x,x_1)=1+4x_1 x1=(1,0)T:K1(x)=K1(x,x1)=1+4x1——xk=x1
    • x 2 = ( 0 , − 1 ) T K 1 ( x 2 , x 1 ) = 1 > 0 , 分 对 了 , 所 以 K 2 ( x ) = K 1 ( x ) x_2=(0,-1)^T K_1(x_2,x_1)=1>0,分对了,所以K_2(x)=K_1(x) x2=(0,1)TK1(x2,x1)=1>0,K2(x)=K1(x)——看是否分对的时候x=x2
    • 二次hermit
      在这里插入图片描述
9.2z第二种:指数势函数
  • K ( x , x k ) = e x p ( − α ∥ x − x k ∥ 2 ) K(x,x_k)=exp(-\alpha \|x-x_k\|^2) K(x,xk)=exp(αxxk2)
    • 二维 α = 1 , K ( x , x k ) = e x p ( − ( ( x 1 − x k 1 ) 2 + ( x 2 − x k 2 ) 2 ) ) \alpha=1,K(x,x_k)=exp(-((x_1-x_{k_1})^2+(x_2-x_{k_2})^2)) α=1,K(x,xk)=exp(((x1xk1)2+(x2xk2)2))

偏差方差分解过程

  • 偏差-方差分解
    • e x p e c t e d l o s s = b i a s 2 + v a r i a n c e + n o i s e expected loss=bias^2+variance +noise expectedloss=bias2+variance+noise
    • e x p e c t e d l o s s = E ( f D ) = ∫ ∫ ( f D ( x ) − y ) 2 p ( x , y ) d x d y = { ∫ ( f D ( x ) − h ( x ) ) 2 p ( x ) d x + ∫ ∫ ( h ( x ) − y ) 2 p ( x , y ) d x d y } = ( E D ( f D ( x ) ) − h ( x ) ) 2 + E D ( f D ( x ) − E D ( f D ( x ) ) ) 2 + ∫ ∫ ( h ( x ) − y ) 2 p ( x , y ) d x d y expected loss=E(f_D)= \int \int (f_D(x)-y)^2p(x,y)dxdy\\=\{\int (f_D(x)-h(x))^2p(x)dx+\int \int (h(x)-y)^2p(x,y)dxdy\}\\=(E_D(f_D(x))-h(x))^2+E_D(f_D(x)-E_D(f_D(x)))^2+\int \int (h(x)-y)^2p(x,y)dxdy expectedloss=E(fD)=(fD(x)y)2p(x,y)dxdy={(fD(x)h(x))2p(x)dx+(h(x)y)2p(x,y)dxdy}=(ED(fD(x))h(x))2+ED(fD(x)ED(fD(x)))2+(h(x)y)2p(x,y)dxdy
    • b i a s = E D ( f D ( x ) ) − h ( x ) , 预 测 结 果 的 均 值 和 最 优 解 的 差 别 bias=E_D(f_D(x))-h(x),预测结果的均值和最优解的差别 bias=ED(fD(x))h(x)
      • 模型越复杂,偏差越小
    • v a r i a n c e = E D ( f D ( x ) − E D ( f D ( x ) ) ) 2 , 预 测 的 结 果 自 己 和 自 己 均 值 的 差 别 variance=E_D(f_D(x)-E_D(f_D(x)))^2,预测的结果自己和自己均值的差别 variance=ED(fD(x)ED(fD(x)))2,
      • 模型越复杂,方差越大
    • n o i s e = ∫ ∫ ( h ( x ) − y ) 2 p ( x , y ) d x d y noise=\int \int (h(x)-y)^2p(x,y)dxdy noise=(h(x)y)2p(x,y)dxdy --不论如何也解决不了的部分,不用管了
    • E D ( f D ( x ) ) = f ˉ D ( x ) E_D(f_D(x))=\bar{f}_D(x) ED(fD(x))=fˉD(x)
      在这里插入图片描述

降维PCA

在这里插入图片描述

  • X 1 = ( − 5 − 5 − 4 − 5 − 6 − 5 − 4 − 5 − 6 − 5 ) X 2 = ( 5 5 6 5 4 5 6 5 4 5 ) M 1 = ( − 5 , − 5 ) T ; M 2 = ( 5 , 5 ) T ; M 1 + M 2 = 0 不 用 变 化 C = P ( w 1 ) X 1 X 1 T / 5 + P ( w 2 ) X 2 X 2 T / 5 = 0.5 ( 25.4 25 25 25.4 ) + 0.5 ( 25.4 25 25 25.4 ) = ( 25.4 25 25 25.4 ) C = W Σ W T = 1 2 ( − 1 1 1 1 ) ( 0.4 0 0 50.4 ) 1 2 ( − 1 1 1 1 ) T W = 1 2 ( − 1 1 1 1 ) 取 W ′ = 1 2 ( 1 , 1 ) T Z 1 = W T X 1 = 1 2 ( 1 , 1 ) ( − 5 − 5 − 4 − 5 − 6 − 5 − 4 − 5 − 6 − 5 ) = 1 2 ( − 10 − − 9 − 9 − 11 − 11 ) Z 1 = W T X 1 = 1 2 ( 1 , 1 ) ( 5 5 6 5 4 5 6 5 4 5 ) = 1 2 ( 10 11 11 9 9 ) X1=\left(\begin{matrix}-5&-5&-4&-5&-6\\-5&-4&-5&-6&-5\end{matrix}\right)\\ X2=\left(\begin{matrix}5&5&6&5&4\\5&6&5&4&5\end{matrix}\right)\\ M1=(-5,-5)^T;M2=(5,5)^T;M1+M2=0不用变化\\ C=P(w_1)X1X1^T/5+P(w_2)X2X2^T/5=0.5\left(\begin{matrix}25.4&25\\25&25.4\end{matrix}\right)+0.5\left(\begin{matrix}25.4&25\\25&25.4\end{matrix}\right)=\left(\begin{matrix}25.4&25\\25&25.4\end{matrix}\right)\\ C=W\Sigma W^T=\frac{1}{\sqrt{2}}\left(\begin{matrix}-1&1\\1&1\end{matrix}\right)\left(\begin{matrix}0.4&0\\0&50.4\end{matrix}\right)\frac{1}{\sqrt{2}}\left(\begin{matrix}-1&1\\1&1\end{matrix}\right)^T\\ W=\frac{1}{\sqrt{2}}\left(\begin{matrix}-1&1\\1&1\end{matrix}\right)\\ 取W'=\frac{1}{\sqrt{2}}(1,1)^T\\ Z1=W^TX1=\frac{1}{\sqrt{2}}(1,1)\left(\begin{matrix}-5&-5&-4&-5&-6\\-5&-4&-5&-6&-5\end{matrix}\right)=\frac{1}{\sqrt{2}}\left(\begin{matrix}-10&--9&-9&-11&-11\end{matrix}\right)\\ Z1=W^TX1=\frac{1}{\sqrt{2}}(1,1)\left(\begin{matrix}5&5&6&5&4\\5&6&5&4&5\end{matrix}\right)=\frac{1}{\sqrt{2}}\left(\begin{matrix}10&11&11&9&9\end{matrix}\right) X1=(5554455665)X2=(5556655445)M1=(5,5)T;M2=(5,5)T;M1+M2=0C=P(w1)X1X1T/5+P(w2)X2X2T/5=0.5(25.4252525.4)+0.5(25.4252525.4)=(25.4252525.4)C=WΣWT=2 1(1111)(0.40050.4)2 1(1111)TW=2 1(1111)W=2 1(1,1)TZ1=WTX1=2 1(1,1)(5554455665)=2 1(10991111)Z1=WTX1=2 1(1,1)(5556655445)=2 1(10111199)

  • 思想:最小化重构误差

  • 算法:(不区分类别)

    1. 均值化为0: x i = x i − 1 m Σ j = 1 m x j − − − 这 是 所 有 样 本 的 均 值 , 若 有 多 类 , 则 是 多 类 样 本 均 值 之 和 x_i=x_i-\frac{1}{m}\Sigma_{j=1}^mx_j---这是所有样本的均值,若有多类,则是多类样本均值之和 xi=xim1Σj=1mxj
    2. 计算 X X T XX^T XXT
    3. C = E ( X X T ) C=E(XX^T) C=E(XXT)特征分解(SVD取U)(C-协方差)
    4. 取前d‘个特征向量: W = ( w 1 , w 2 , . . . , w d ′ ) W=(w_1,w_2,...,w_{d'}) W=(w1,w2,...,wd)
    5. z = W T x z=W^Tx z=WTx
  • 算法:(区分类别)

    1. 均值化为0: x i = x i − m , m = m 1 + m 2 − − − 这 是 所 有 样 本 的 均 值 , 若 有 多 类 , 则 是 多 类 样 本 均 值 之 和 , x_i=x_i-m,m=m_1+m_2---这是所有样本的均值,若有多类,则是多类样本均值之和, xi=xim,m=m1+m2
    2. 计算 X X T XX^T XXT
    3. C = p ( w 1 ) E ( X 1 X 1 T ) + p ( w 2 ) E ( X 2 X 2 T ) = V Σ V T , V 的 列 向 量 为 特 征 向 量 W = V , V T C V = Σ C=p(w_1)E(X_1X_1^T)+p(w_2)E(X_2X_2^T)=V\Sigma V^T,V的列向量为特征向量W=V,V^TCV=\Sigma C=p(w1)E(X1X1T)+p(w2)E(X2X2T)=VΣVT,VW=VVTCV=Σ特征分解(SVD取U)(C-协方差)
    4. 取前d‘个特征向量: W = ( w 1 , w 2 , . . . , w d ′ ) , w i 为 列 向 量 − 特 征 向 量 W=(w_1,w_2,...,w_{d'}),w_i为列向量-特征向量 W=(w1,w2,...,wd),wi
    5. z = W T x , x 是 均 值 归 0 后 的 z=W^Tx,x是均值归0后的 z=WTx,x0
  • PCA优化目标

    • 最小化重构误差
    • PCA能够获取互不相关的新特征。采用较大特征值对应的特征向量变换,则能保留元模式中方差最大的特征部分,所以K-L变换起到了减小相关性,突出差异性的效果==KL变换

SVM

在这里插入图片描述

原问题拉格朗日对偶问题分界面最终参数
hard margin m i n w 1 2 ∥ w ∥ 2 min_w \frac{1}{2}\|w\|^2 minw21w2约束 y i ( w T x i ) > = 1 , 对 任 意 i y^i(w^Tx^i)>=1,对任意i yi(wTxi)>=1,i L ( λ i , w , b ) = Σ i = 1 N λ i ( 1 − y i ( w T x i + b ) ) + + 1 2 ∥ w ∥ 2 L(\lambda_i,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b))_++\frac{1}{2} \|w\|^2 L(λi,w,b)=Σi=1Nλi(1yi(wTxi+b))++21w2 m a x λ θ D ( λ ) = Σ i = 1 n λ i − 1 2 Σ i , j = 1 n y i y j λ i λ j ( x i ) T x j max_\lambda \theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^j maxλθD(λ)=Σi=1nλi21Σi,j=1nyiyjλiλj(xi)Txj约束: λ i > = 0 ; Σ i = 1 n λ i y i = 0 \lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0 λi>=0;Σi=1nλiyi=0 b ∗ + Σ i = 1 n λ i ∗ y i ( x i ) T x j = 0 b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j=0 b+Σi=1nλiyi(xi)Txj=0 w ∗ = Σ i = 1 n λ i ∗ y i x i ; b ∗ = y j − Σ i = 1 n λ i ∗ y i ( x i ) T x j w*=\Sigma_{i=1}^n \lambda_i*y^ix^i;b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j w=Σi=1nλiyixi;b=yjΣi=1nλiyi(xi)Txj
soft m i n w 1 2 ∥ w ∥ 2 + C Σ i = 1 n ξ i min_w \frac{1}{2}\|w\|^2+C\Sigma_{i=1}^n\xi_i minw21w2+CΣi=1nξi约束 y i ( w T x i ) > = 1 − ξ i , ξ i ≥ 0 , 对 任 意 i y^i(w^Tx^i)>=1-\xi_i,\xi_i \geq 0,对任意i yi(wTxi)>=1ξi,ξi0,i L ( λ i , η i , ξ , w , b ) = Σ i = 1 N λ i ( 1 − y i ( w T x i + b ) − ξ i ) − Σ i = 1 n η i ξ i + 1 2 ∥ w ∥ 2 L(\lambda_i,\eta_i,\xi,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b)-\xi_i)-\Sigma_{i=1}^n\eta_i \xi_i+\frac{1}{2} \|w\|^2 L(λi,ηi,ξ,w,b)=Σi=1Nλi(1yi(wTxi+b)ξi)Σi=1nηiξi+21w2 m a x λ θ D ( λ ) = Σ i = 1 n λ i − 1 2 Σ i , j = 1 n y i y j λ i λ j ( x i ) T x j max_\lambda \theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^j maxλθD(λ)=Σi=1nλi21Σi,j=1nyiyjλiλj(xi)Txj 约束: 0 ≤ λ i ≤ C = λ i + η i ( η i > = 0 ) ; Σ i = 1 n λ i y i = 0 0 \leq \lambda_i\leq C=\lambda_i+\eta_i(\eta_i>=0);\Sigma_{i=1}^n\lambda_iy^i=0 0λiC=λi+ηi(ηi>=0);Σi=1nλiyi=0 b ∗ + Σ i = 1 n λ i ∗ y i ( x i ) T x j = 0 b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j=0 b+Σi=1nλiyi(xi)Txj=0 w ∗ = Σ i = 1 n λ i ∗ y i x i ; b ∗ = y j − Σ i = 1 n λ i ∗ y i ( x i ) T x j w*=\Sigma_{i=1}^n \lambda_i*y^ix^i;b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j w=Σi=1nλiyixi;b=yjΣi=1nλiyi(xi)Txj
kernel-- θ D ( λ ) = Σ i = 1 n λ i − 1 2 Σ i , j = 1 n y i y j λ i λ j K ( x i , x j ) \theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_jK(x^i,x^j) θD(λ)=Σi=1nλi21Σi,j=1nyiyjλiλjK(xi,xj)约束: λ i > = 0 ; Σ i = 1 n λ i y i = 0 \lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0 λi>=0;Σi=1nλiyi=0 w ∗ = Σ i = 1 n λ i ∗ y i x i b ∗ = y j − Σ i = 1 n λ i ∗ y i K ( x i , x j ) w*=\Sigma_{i=1}^n \lambda_i*y^ix^i\\b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i K(x^i,x^j) w=Σi=1nλiyixib=yjΣi=1nλiyiK(xi,xj)
  • SMO
    • 每次对一对,其他n-2个固定: λ 1 y 1 + λ 2 y 2 = − Σ i = 3 N α i y i = C \lambda_1y^1+\lambda_2y^2=-\Sigma_{i=3}^N\alpha_iy^i=C λ1y1+λ2y2=Σi=3Nαiyi=C
      • λ 1 = ( C − λ 2 y 2 ) y 1 \lambda_1=(C-\lambda_2y^2)y^1 λ1=(Cλ2y2)y1
      • L ( ( C − λ 2 y 2 ) y 1 , λ 2 , . . . , λ N ) , 先 忽 略 约 束 求 导 , 得 到 λ 2 n e w , u n c l i p p e d , 再 加 上 约 束 L((C-\lambda_2y^2)y^1,\lambda_2,...,\lambda_N),先忽略约束求导,得到\lambda_2^{new,unclipped},再加上约束 L((Cλ2y2)y1,λ2,...,λNλ2new,unclipped
      • 用 λ 2 更 新 λ 1 : λ 1 n e w = λ 1 o l d ( λ 2 o l d − λ 2 n e w ) y 2 y 1 用\lambda_2更新\lambda_1:\lambda_1^{new}=\lambda_1^{old}(\lambda_2^{old}-\lambda_2^{new})y^2y^1 λ2λ1:λ1new=λ1old(λ2oldλ2new)y2y1
    • 从那一对开始呢?

神经网络

人工神经网络

  1. 定义
    所谓人工神经网络就是基于模仿生物大脑的结构和功能而构成的一种信息处理系统(计算机)。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。由于我们建立的信息处理系统实际上是模仿生理神经网络,因此称它为人工神经网络。
  2. 特点
    • 固有的并行结构和并行处理;
    • 知识的分布存储;
    • 容错性;
    • 自适应性;
  • 人工神经网络也有其局限性(
    • 不适于高精度的计算、
    • 不适于类似顺序计数的工作、
    • 学习和训练是一个艰难的过程、
    • 必须克服时间域顺序处理方面的困难、
    • 硬件限制、
    • 正确的训练数据的收集)。
  1. 考虑因素
    要基于应用的要求和人工神经网络模型的能力间的匹配,主要考虑因素包括:
    网络大小、所需输出类型、联想记忆类型、训练方法、时间的限定。
why deep
  1. 深层结构能够有效地表达
    1. 对相同函数需要更少的计算单元
    2. 高层可以综合利用低层信息
  2. 深层结构产生层次化的特征表达
    1. 可解释性,更有语义化信息
  3. 多层隐变量允许统计上的组合共享
  4. 有效
BP:

在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述

CNN

  • CNN基本操作的含义
  • 卷积层: 检测某种特异性特征,不同的权值组合检测不同的特征,通过局部连接,参数共享降低参数数量
  • 池化层:平移不变性和旋转不变性(下采样+降维)
  • 激活函数(RELU)层: 非线性。
  • 多层:层级性
特征提取方式的变更(目标检测)

在这里插入图片描述

  • 5
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值