概论
- 人工智能:机器对人类智能的模仿
- 人类智能:感知、学习、思考、语言、行动
- 模式识别(机器感知):将非结构化数据转化为结构化知识
- 模式识别基本方法:
- 特征提取、特征选择
- 特征空间上的分类器
- 分类器设计过程:选择分类器类型、设计损失函数/似然函数、训练(参数估计)
- 数据集分类:训练集、验证集、测试集
- 验证集:训练后在这一数据集上对模型进行评价、修改
- 泛化性:测试数据上的分类性能
- 过拟合:在训练集上性能好,但泛化性不好;分类器越复杂,数据量越少,越容易过拟合
模式识别的分类
- 表示方式分:统计学习/结构学习
- 统计方法的优点:训练容易,样本较多时分类性能更好
- 结构学习的优点:较少样本即可得到较好的分类结果,可解释性强,鲁棒性强
- 学习方式分:有监督、无监督、半监督、强化学习、迁移学习、增量学习
- 生成模型/判别模型
- 生成模型:基于模板的分类器、参数概率密度(高斯模型)、贝叶斯网络、隐马尔可夫模型、无向图
- 判别模型:NN、SVM、Boosting、Conditional random field(CRF)
- 已知条件概率求后验概率、未知条件概率求后验概率、直接求判别函数
判别函数与决策面
- 判别函数:表征模式属于每一类的广义似然度
- 决策面:特征空间中判别函数相等的点的集合
高斯分布
- 一般形式: p ( x ) = 1 2 π σ exp ( − ( x − μ ) 2 2 σ 2 ) p(x)=\frac1{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2}) p(x)=2πσ1exp(−2σ2(x−μ)2)
- 矩阵形式: p ( x ) = 1 ( 2 π ) d 2 ∣ Σ ∣ 1 2 exp [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] p(x)=\frac1{(2\pi)^\frac d2\vert\Sigma\vert^{\frac12}}\exp[-\frac12(x-\mu)^T\Sigma^{-1}(x-\mu)] p(x)=(2π)2d∣Σ∣211exp[−21(x−μ)TΣ−1(x−μ)]
贝叶斯分类器
- 应用场景:在已知先验概率和条件概率的情况下
分类准则
- 最小错误率决策:选择后验概率最大的分类
后验概率公式: P ( x i ∣ A ) = P ( A ∣ x i ) P ( x i ) ∑ P ( A ∣ x j ) P ( x j ) P(x_i|A)=\frac{P(A|x_i)P(x_i)}{\sum P(A|x_j)P(x_j)} P(xi∣A)=∑P(A∣xj)P(xj)P(A∣xi)P(xi)
- 最小风险决策: arg min i R ( α i ∣ x ) \argmin_iR(\alpha_i|x) iargminR(αi∣x),其中 R ( α i ∣ x ) = ∑ j = 1 c λ ( α i ∣ w j ) P ( w j ∣ x ) R(\alpha_i|x)=\sum_{j=1}^c\lambda(\alpha_i|w_j)P(w_j|x) R(αi∣x)=∑j=1cλ(αi∣wj)P(wj∣x)
- 拒识:增加一个拒识类
概率密度估计方法
- 参数法:最大似然估计、贝叶斯估计
- 非参数法:Parzen窗、KNN
- 任意近似法:GMM、EM
参数估计
最大似然估计
- 似然性: p ( D ∣ θ ) = ∏ x k ∈ D p ( x k ∣ θ ) p(D|\theta)=\prod_{x_k\in D} p(x_k|\theta) p(D∣θ)=∏xk∈Dp(xk∣θ)
- 多维高斯分布的最大似然估计: μ ^ = 1 n ∑ k = 1 n x k \hat\mu=\frac1n\sum_{k=1}^nx_k μ^=n1∑k=1nxk, Σ ^ = 1 n ∑ k = 1 n ( x k − μ ^ ) ( x k − μ ^ ) t \hat\Sigma=\frac1n\sum_{k=1}^n(x_k-\hat\mu)(x_k-\hat\mu)^t Σ^=n1∑k=1n(xk−μ^)(xk−μ^)t
贝叶斯估计
- 思想:用一类的数据集和参数的分布估计该类的参数
p ( x ∣ D ) = ∫ p ( x , θ ∣ D ) d θ = ∫ p ( x ∣ θ ) p ( θ ∣ D ) d θ p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) ∫ p ( D ∣ θ ) p ( θ ) d θ = α ∏ k = 1 n p ( x k ∣ θ ) p ( θ ) p(x|D)=\int p(x,\theta|D)d\theta=\int p(x|\theta)p(\theta|D)d\theta\\ p(\theta|D)=\frac{p(D|\theta)p(\theta)}{\int p(D|\theta)p(\theta)d\theta}=\alpha\prod_{k=1}^np(x_k|\theta)p(\theta) p(x∣D)=∫p(x,θ∣D)dθ=∫p(x∣θ)p(θ∣D)dθp(θ∣D)=∫p(D∣θ)p(θ)dθp(D∣θ)p(θ)=αk=1∏np(xk∣θ)p(θ)
非参数估计
核密度估计(Parzen window)
给定概率密度函数 φ ( x ) \varphi(x) φ(x),则以x为中心、体积为 V n = h n d V_n=h_n^d Vn=hnd的区域内的点个数为 k n = ∑ i = 1 n φ ( x − x i h n ) k_n=\sum_{i=1}^n\varphi(\frac{x-x_i}{h_n}) kn=∑i=1nφ(hnx−xi),则依此得概率密度估计 p n ( x ) = k n n V n p_n(x)=\frac{k_n}{nV_n} pn(x)=nVnkn
- 窗口选择:小窗容易过拟合,大窗容易欠拟合
- 特点:固定局部体积V,变化k
KNN
P n ( w i ∣ x ) = k i k P_n(w_i|x)=\frac{k_i}k Pn(wi∣x)=kki
- 特点:固定局部样本数k,变化V