模式识别笔记(一)概论、贝叶斯决策(参数估计、非参数估计)

概论

  • 人工智能:机器对人类智能的模仿
  • 人类智能:感知、学习、思考、语言、行动
  • 模式识别(机器感知):将非结构化数据转化为结构化知识
  • 模式识别基本方法:
    • 特征提取、特征选择
    • 特征空间上的分类器
  • 分类器设计过程:选择分类器类型、设计损失函数/似然函数、训练(参数估计)
  • 数据集分类:训练集、验证集、测试集
    • 验证集:训练后在这一数据集上对模型进行评价、修改
  • 泛化性:测试数据上的分类性能
  • 过拟合:在训练集上性能好,但泛化性不好;分类器越复杂,数据量越少,越容易过拟合

模式识别的分类

  • 表示方式分:统计学习/结构学习
    • 统计方法的优点:训练容易,样本较多时分类性能更好
    • 结构学习的优点:较少样本即可得到较好的分类结果,可解释性强,鲁棒性强
  • 学习方式分:有监督、无监督、半监督、强化学习、迁移学习、增量学习
  • 生成模型/判别模型
    • 生成模型:基于模板的分类器、参数概率密度(高斯模型)、贝叶斯网络、隐马尔可夫模型、无向图
    • 判别模型:NN、SVM、Boosting、Conditional random field(CRF)
  • 已知条件概率求后验概率、未知条件概率求后验概率、直接求判别函数

判别函数与决策面

  • 判别函数:表征模式属于每一类的广义似然度
  • 决策面:特征空间中判别函数相等的点的集合

高斯分布

  • 一般形式: p ( x ) = 1 2 π σ exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) p(x)=\frac1{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2}) p(x)=2π σ1exp(2σ2(xμ)2)
  • 矩阵形式: p ( x ) = 1 ( 2 π ) d 2 ∣ Σ ∣ 1 2 exp ⁡ [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] p(x)=\frac1{(2\pi)^\frac d2\vert\Sigma\vert^{\frac12}}\exp[-\frac12(x-\mu)^T\Sigma^{-1}(x-\mu)] p(x)=(2π)2dΣ211exp[21(xμ)TΣ1(xμ)]

贝叶斯分类器

  • 应用场景:在已知先验概率和条件概率的情况下

分类准则

  • 最小错误率决策:选择后验概率最大的分类

后验概率公式: P ( x i ∣ A ) = P ( A ∣ x i ) P ( x i ) ∑ P ( A ∣ x j ) P ( x j ) P(x_i|A)=\frac{P(A|x_i)P(x_i)}{\sum P(A|x_j)P(x_j)} P(xiA)=P(Axj)P(xj)P(Axi)P(xi)

  • 最小风险决策: arg min ⁡ i R ( α i ∣ x ) \argmin_iR(\alpha_i|x) iargminR(αix),其中 R ( α i ∣ x ) = ∑ j = 1 c λ ( α i ∣ w j ) P ( w j ∣ x ) R(\alpha_i|x)=\sum_{j=1}^c\lambda(\alpha_i|w_j)P(w_j|x) R(αix)=j=1cλ(αiwj)P(wjx)
  • 拒识:增加一个拒识类

概率密度估计方法

  • 参数法:最大似然估计、贝叶斯估计
  • 非参数法:Parzen窗、KNN
  • 任意近似法:GMM、EM

参数估计

最大似然估计

  • 似然性: p ( D ∣ θ ) = ∏ x k ∈ D p ( x k ∣ θ ) p(D|\theta)=\prod_{x_k\in D} p(x_k|\theta) p(Dθ)=xkDp(xkθ)
  • 多维高斯分布的最大似然估计: μ ^ = 1 n ∑ k = 1 n x k \hat\mu=\frac1n\sum_{k=1}^nx_k μ^=n1k=1nxk Σ ^ = 1 n ∑ k = 1 n ( x k − μ ^ ) ( x k − μ ^ ) t \hat\Sigma=\frac1n\sum_{k=1}^n(x_k-\hat\mu)(x_k-\hat\mu)^t Σ^=n1k=1n(xkμ^)(xkμ^)t

贝叶斯估计

  • 思想:用一类的数据集和参数的分布估计该类的参数
    p ( x ∣ D ) = ∫ p ( x , θ ∣ D ) d θ = ∫ p ( x ∣ θ ) p ( θ ∣ D ) d θ p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) ∫ p ( D ∣ θ ) p ( θ ) d θ = α ∏ k = 1 n p ( x k ∣ θ ) p ( θ ) p(x|D)=\int p(x,\theta|D)d\theta=\int p(x|\theta)p(\theta|D)d\theta\\ p(\theta|D)=\frac{p(D|\theta)p(\theta)}{\int p(D|\theta)p(\theta)d\theta}=\alpha\prod_{k=1}^np(x_k|\theta)p(\theta) p(xD)=p(x,θD)dθ=p(xθ)p(θD)dθp(θD)=p(Dθ)p(θ)dθp(Dθ)p(θ)=αk=1np(xkθ)p(θ)

非参数估计

核密度估计(Parzen window)

给定概率密度函数 φ ( x ) \varphi(x) φ(x),则以x为中心、体积为 V n = h n d V_n=h_n^d Vn=hnd的区域内的点个数为 k n = ∑ i = 1 n φ ( x − x i h n ) k_n=\sum_{i=1}^n\varphi(\frac{x-x_i}{h_n}) kn=i=1nφ(hnxxi),则依此得概率密度估计 p n ( x ) = k n n V n p_n(x)=\frac{k_n}{nV_n} pn(x)=nVnkn

  • 窗口选择:小窗容易过拟合,大窗容易欠拟合
  • 特点:固定局部体积V,变化k

KNN

P n ( w i ∣ x ) = k i k P_n(w_i|x)=\frac{k_i}k Pn(wix)=kki

  • 特点:固定局部样本数k,变化V
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值