第一章 引论
1_1 概念
-
模式识别(PR):确定一个样本的类别属性(模式类)的过程,即把某一样本归属到多个类型中的一个类型
-
样本:一个具体的研究(客观)对象,如患者,某人写的一个汉字,一副图片等
-
模式:对客体(研究对象)特征的描述(定量的或结构的描述),时取自客观世界的某一样本的测量值的集合(或综合)
-
特征:能描述模式特征的量(测量值)。通常用一个矢量 x → ~ \overrightarrow{x}~ x 表示,称为特征矢量
- x → = ( x 1 , x 2 , . . . , x n ) ‘ \overrightarrow{x}=(x_1,x_2,...,x_n)^` x=(x1,x2,...,xn)‘
-
模式类:具有某些共同特性的模式的集合
-
训练集:是一个已知样本集,在监督学习方法中,用它来开发出模式分类器
-
测试集:在设计识别和分类系统时没有用过的独立样本集
-
系统评估原则:为了更好地对模式识别系统性能进行评价,必须使用一组独立于训练集的测试集对系统进行测试
1_2 模式识别三大任务
- 各类空间的概念
- 对象空间
→
\rightarrow
→(模式采集)
→
\rightarrow
→模式空间
→
\rightarrow
→(特征提取和特征选择)
→
\rightarrow
→特征空间
→
\rightarrow
→(类型旁别)
→
\rightarrow
→类型空间
- 通常再采集信息的过程中,需要去除信息中的噪音,信息纯化,预处理
1_3 模式识别系统概述
- 模式识别系统的主要环节
- 特征提取:符号表示,如长度、波形
- 特征选择:选择有代表性的特征,能够正确分类
- 学习和训练:利用已知样本建立分类和识别规则
- 分类识别:对所获得样本按建立的分类规则进行分类识别
1_4 模式识别系统的算法体系
1_5 统计模式识别
- 模式描述方法:特征向量 x → = ( x 1 , x 2 , . . . , x n ) ‘ \overrightarrow{x}=(x_1,x_2,...,x_n)^` x=(x1,x2,...,xn)‘
- 模式判定:模式类用条件概率分布 P ( X / w i ) P(X/w_i) P(X/wi)表示,m类就有m个分布,然后判定未知模式属于哪一个分布
1_6 句法模式识别
- 模式描述方法:符号串,树,图
- 模式判定:是一种语言,用一个文法表示一个类,m类就有m个文法,然后判定未知模式遵循哪一个文法
1_7 模糊、神经网络、智能方法
- 模糊模式识别
-
模式描述方法:模糊集合 A = { ( μ a , a ) , ( μ b , b ) , . . . ( μ n , n ) } A=\{(\mu_a,a),(\mu_b,b),...(\mu_n,n)\} A={(μa,a),(μb,b),...(μn,n)}
-
模式判定:是一种集合运算。用隶属度将模糊集合花粉为若干子集,m类就有m个子集,然后根据择近原则分类
- 人工神经网络法
- 模式描述方法:以不同活跃度表示的输入节点集(神经元)
- 模式判断定:是一个非线性动态系统。通过对样本的学习建立起记忆,然后将未知模式判决为其最接近的记忆
- 逻辑推理法(仍智能法)
- 模式描述方法:字符串表示的事实
- 模式判定:是一种布尔运算。从事实出发运用一系列规则,推理得到不同结果,m个类就有m个结果
1_9 随机矢量的描述和特征
-
特征矢量:设一个研究对象的n个特征量测量值分别为 x 1 , x 2 , . . . x n x_1,x_2,...x_n x1,x2,...xn,将这些特征作为一个整体来考虑,构成一个n维特征矢量 x → \overrightarrow{x} x
-
特征空间:各种不同取值的特征矢量的全体构成了n维特征空间
-
注:特征矢量就是特征空间中的一个点
-
随机矢量:许多对象的特征向量在n维空间中呈随机性分布
- 随机矢量的描述
-
随机矢量的分布函数:
-
设 X → = ( X 1 , X 2 , . . . , X n ) ‘ \overrightarrow{X}=(X_1,X_2,...,X_n)^` X=(X1,X2,...,Xn)‘为随机矢量
-
x → = ( x 1 , x 2 , . . . , x n ) ‘ \quad \overrightarrow{x}=(x_1,x_2,...,x_n)^` x=(x1,x2,...,xn)‘为确定性矢量
-
随机矢量的联合概率分布函数定义为: F ( x 1 , x 2 , . . . , x n ) = P ( X 1 ≤ x 1 , X 2 ≤ x 2 , . . . , X n ≤ x n ) F ( x → ) = P ( X → ≤ x → ) F(x_1,x_2,...,x_n)=P(X_1\leq x_1,X_2\leq x_2,...,X_n\leq x_n)\\ F(\overrightarrow{x})=P(\overrightarrow{X}\leq \overrightarrow{x}) F(x1,x2,...,xn)=P(X1≤x1,X2≤x2,...,Xn≤xn)F(x)=P(X≤x)
-
式中 P ( . ) P(.) P(.)表示括号中事件同时发生的概率
-
- 随机矢量的数字特征
- 均值矢量(期望矢量)
- n维随机矢量 X → \overrightarrow{X} X的数学期望 μ → \overrightarrow{\mu} μ定义为:
- μ → = E [ X → ] = X → ‾ = ∫ X n x → p ( x → ) d x → \overrightarrow{\mu}=E[\overrightarrow{X}]=\overline{\overrightarrow{X}}=\int\nolimits_{X^n}\overrightarrow{x}p(\overrightarrow{x})d\overrightarrow{x} μ=E[X]=X=∫Xnxp(x)dx
正太分布
-
正太分布的一维随机变量X的概率密度函数:
- p ( x ) = 1 2 π σ e x p [ − ( x − μ ) 2 2 σ 2 ] p(x)={1 \over \sqrt{2\pi}\sigma}exp[-\frac{(x-\mu)^2}{2\sigma^2}] p(x)=2πσ1exp[−2σ2(x−μ)2]
- 式中, μ \mu μ为数学期望, σ 2 \sigma^2 σ2为方差
-
一维随机变量的正太分布
- μ = E [ X ] = ∫ − ∞ ∞ x p ( x ) d x \mu = E[X]=\int\limits_{-\infty}^{\infty}xp(x)dx μ=E[X]=−∞∫∞xp(x)dx
-
σ
2
=
E
[
(
X
−
μ
)
2
]
=
∫
−
∞
∞
(
x
−
μ
)
2
p
(
x
)
d
x
\sigma^2=E[(X-\mu)^2]=\int\limits_{-\infty}^{\infty}(x-\mu)^2p(x)dx
σ2=E[(X−μ)2]=−∞∫∞(x−μ)2p(x)dx
-
二维随机变量的正太分布
第二章 聚类分析
2_1 聚类分析的概念
- 方法的有效性
- 取决于分类算法和特征点分布情况的匹配
- 非欸类无效的情况
- 特征选取不当使分类无效
- 特征选取不可能使不同类别的模式判为一类
- 特征选取过多可能无益反而有害,增加分析负担并使分析效果变差
- 量纲选取不当
-
聚类应用的四个基本方向
-
减少数据
-
假说生成
-
假说检验
-
基于分组的预测
-
2_4 样本相似度测量
-
聚类过程遵循的基本步骤
- 特征选择:尽可能多地包含任务关心的信息
- 相似度测量:定量测定两特征如何“相似”或“不相似”
- 聚类准则:以蕴涵在数据集中类的类型为基础
- 聚类算法:按近邻测度和聚类准则揭示数据集的聚类结构
- 结果验证:常用逼近检验验证聚类结果的正确性
- 结果判定:由专家用其他方法判定结果的正确性
-
模式相似性测度
-
距离测度
- 测度基础:两个矢量矢端的距离
- 测度数值:两矢量各相应分量之差的函数
- 欧氏距离
- d ( x → , y → ) = ∣ ∣ x → − y → ∣ ∣ = [ ∑ i = 1 n ( x i − y i ) 2 ] 1 / 2 d(\overrightarrow{x},\overrightarrow{y})=||\overrightarrow{x}-\overrightarrow{y}||=[\sum\limits_{i=1}^n(x_i-y_i)^2]^{1/2} d(x,y)=∣∣x−y∣∣=[i=1∑n(xi−yi)2]1/2
- x → = ( x 1 , x 2 , . . . , x n ) ‘ , y → = ( y 1 , y 2 , . . . , y n ) ‘ \overrightarrow{x}= (x_1,x_2,...,x_n)^`,\overrightarrow{y}=(y_1,y_2,...,y_n)^` x=(x1,x2,...,xn)‘,y=(y1,y2,...,yn)‘
- 绝对值距离(街坊距离或Manhattan距离)
- d ( x → , y → ) = ∑ i = 1 n ∣ x i − y i ∣ d(\overrightarrow{x},\overrightarrow{y})=\sum\limits_{i=1}^n|x_i-y_i| d(x,y)=i=1∑n∣xi−yi∣
- 切氏距离
- d ( x → , y → ) = m a x ∣ x i − y i ∣ d(\overrightarrow{x},\overrightarrow{y})=max|x_i-y_i| d(x,y)=max∣xi−yi∣
- 明氏距离
- d ( x → , y → ) = [ ∑ i = 1 n ∣ x i − y i ∣ m ] 1 / m d(\overrightarrow{x},\overrightarrow{y})=[\sum\limits_{i=1}^n|x_i-y_i|^m]^{1/m} d(x,y)=[i=1∑n∣xi−yi∣m]1/m
- 马氏距离
- 设n维矢量 x → i 和 x → j \overrightarrow{x}_i和\overrightarrow{x}_j xi和xj是矢量集 { x → 1 , x → 2 , . . . , x → m } \{\overrightarrow{x}_1,\overrightarrow{x}_2,...,\overrightarrow{x}_m\} {x1,x2,...,xm}中的两个矢量,马氏距离d定义为:
- d 2 ( x → i , x → j ) = ( x → i − x → j ) ‘ V − 1 ( x → i − x → j ) d^2(\overrightarrow{x}_i,\overrightarrow{x}_j)=(\overrightarrow{x}_i-\overrightarrow{x}_j)^`V^{-1}(\overrightarrow{x}_i-\overrightarrow{x}_j) d2(xi,xj)=(xi−xj)‘V−1(xi−xj)
- 其中: V = 1 m − 1 ∑ i = 1 m ( x → i − x → ) ( x → i − x → ) ‘ V=\dfrac{1}{m-1}\sum\limits_{i=1}^{m}(\overrightarrow{x}_i-\overrightarrow{x})(\overrightarrow{x}_i-\overrightarrow{x})^` V=m−11i=1∑m(xi−x)(xi−x)‘
- x → ‾ = 1 m ∑ i = 1 m x i → \overline{\overrightarrow{x}}=\dfrac{1}{m}\sum\limits_{i=1}^m\overrightarrow{x_i} x=m1i=1∑mxi
- 注意:马氏距离对一切非奇异线性变换都是不变的,这说明它不受特征量纲选择的影响,并且是平移不变的
- V的含义是这个矢量集的协方差阵的统计量,故马氏距离加入了对特征的相关性的考虑
-
相似测度
-
匹配测度
2_5 类间距离的定义
- 类的定义:设集合S中任意元素
x
i
x_i
xi与
y
j
y_j
yj间的距离
d
i
j
d_{ij}
dij有
d
i
j
≤
h
d_{ij}\leq h
dij≤h
- 其中h为给定的阈值,称S对于阈值h组成一类
- 类间距离测度方法
- 最近距离法: D k l = m i n [ d i j ] D_{kl}=min[d_{ij}] Dkl=min[dij]
- 最远距离法: D k l = m a x [ d i j ] D_{kl}=max[d_{ij}] Dkl=max[dij]
- 中间距离法
- 重心距离法
- 平均距离法
- 离差平方和法
- 聚类的准则函数
- 判别分类结果好坏的一般标准:类内距离小。类间距离大
简单聚类方法
-
按最小距离原则简单聚类方法
- 针对具体问题确定相似性阈值,将模式到各聚类中心间的距离与阈值比较,当大于阈值时改模式就作为另一类的类心,小于阈值时按最小距离原则将其划到某一类中
- 这类算法运行中模式的类别及类的中心一旦确定将不会改变
-
按最小距离原则进行两类合并的方法
- 首先视各模式自成一类,然后将距离最小的两类合并成一类,不断地重复这个过程,直到成为两类为止
-
依据准则函数动态聚类方法
- 设定一些分类的控制参数,定义一个能表征聚类结果优劣的准则函数,聚类过程就是使准则函数取极值的优化过程
2_8 C均值算法
第三章 判别域代数界面方程法
3.1用判别域界面方程分类的概念
- 分类的基本原理
- 运用已知类别的训练样本进行学习,产生若干各代数界面 d ( x → ) = 0 d(\overrightarrow{x})=0 d(x)=0, 将特征空间划分成一些互不重叠的子区域
- 判别函数
- 表示界面的函数 d ( x → ) d(\overrightarrow{x}) d(x)称为判别函数
- 线性可分的定义
- 对于来自两类的一组模式 x → 1 , x → 2 , . . . , x → N \overrightarrow{x}_1,\overrightarrow{x}_2,...,\overrightarrow{x}_N x1,x2,...,xN,如果能用一个线性判别函数正确分类,则称他们是线性可分的
- 本章分类方法的基本技术思想
- 利用训练样本求出分类器/判别函数
- 利用判别函数对未知类别样本分类
3.2 线性判别函数
-
在n维特征空间中,特征矢量 x → 0 = ( x 1 , x 2 , . . . . x n ) ‘ \overrightarrow{x}_0=(x_1,x_2,....x_n)^` x0=(x1,x2,....xn)‘,线性判别函数的一般形式是:
- d ( x → ) = w 1 x 1 + w 2 x 2 + . . . + w n x n + w n + 1 = w → 0 ‘ x → + w n + 1 d(\overrightarrow{x})=w_1x_1+w_2x_2+...+w_nx_n+w_{n+1}=\overrightarrow{w}_0^`\overrightarrow{x}+w_{n+1} d(x)=w1x1+w2x2+...+wnxn+wn+1=w0‘x+wn+1
- 其中 w → 0 = ( w 1 , w 2 , . . . w n ) ‘ \overrightarrow{w}_0=(w_1,w_2,...w_n)^` w0=(w1,w2,...wn)‘称为权矢量或系数矢量
-
x
→
和
w
→
\overrightarrow{x} 和\overrightarrow{w}
x和w分别称为增广特征矢量和增广权矢量
-
w i / w j w_i/w_j wi/wj两分法(第二种情况)
-
对C类中的任意两类 w i 和 w j w_i和w_j wi和wj都分别建立一个判别函数,这个判别函数将属于 w i w_i wi的模式与属于 w j w_j wj的模式区分开。
-
此函数对其他模式分类不提供信息,因此总共需要 c ( c − 1 ) / 2 c(c-1)/2 c(c−1)/2个这样的判别函数
-
判别函数: d i j ( x → ) = w → i j ‘ x → { > 0 , 若 x → ∈ w i < 0 , 若 x → ∈ w i d_{ij}(\overrightarrow{x})=\overrightarrow{w}_{ij}^`\overrightarrow{x}\begin{cases}>0,若\overrightarrow{x}\in w_i \\ <0,若\overrightarrow{x}\in w_i \end{cases} dij(x)=wij‘x{>0,若x∈wi<0,若x∈wi
-
i ≠ j , d i j ( x → ) = − d j i ( x → ) i\not= j,~~d_{ij}(\overrightarrow{x})=-d_{ji}(\overrightarrow{x}) i=j, dij(x)=−dji(x)
-
- 判别规则是:
- 如果:
d
i
j
(
x
)
>
0
,
∀
j
≠
i
~ d_{ij}(x)>0,\forall j\not=i ~~
dij(x)>0,∀j=i 则判
x
∈
w
i
~~x\in w_i
x∈wi
- 如果:
d
i
j
(
x
)
>
0
,
∀
j
≠
i
~ d_{ij}(x)>0,\forall j\not=i ~~
dij(x)>0,∀j=i 则判
x
∈
w
i
~~x\in w_i
x∈wi
- 没有不确定区的 w i / w j w_i/w_j wi/wj两分法(第三种情况)
-
令方法2中的判别函数为: d i j ( x → ) = d i ( x → ) − d j ( x → ) = ( w → i − w → i ) ‘ x → d_{ij}(\overrightarrow{x})=d_i(\overrightarrow{x})-d_j(\overrightarrow{x})=(\overrightarrow{w}_i-\overrightarrow{w}_i)^`\overrightarrow{x} dij(x)=di(x)−dj(x)=(wi−wi)‘x
-
则 d i j ( x → ) > 0 d_{ij}(\overrightarrow{x})>0 dij(x)>0等价于 d i ( x → ) > d j ( x → ) d_i(\overrightarrow{x})>d_j(\overrightarrow{x}) di(x)>dj(x),于是对每一类 w i w_i wi均建立一个旁别函数 d i ( x → ) = w → i ‘ x → i = 1 , 2 , . . . , c d_i(\overrightarrow{x})=\overrightarrow{w}_i^`\overrightarrow{x}~~i=1,2,...,c di(x)=wi‘x i=1,2,...,c
-
故判决规则成为:
- 如果 d i ( x → ) > d j ( x → ) ∀ j ≠ i ~d_i(\overrightarrow{x})>d_j(\overrightarrow{x})\quad \forall j\not=i\quad di(x)>dj(x)∀j=i则判 x → ∈ w i \quad \overrightarrow{x}\in w_i x∈wi
- 判决规则的另一种表达形式:
- 如果
d
i
(
x
→
)
=
m
a
x
[
d
j
(
x
→
)
]
\quad d_i(\overrightarrow{x})=max[d_j(\overrightarrow{x})]\quad
di(x)=max[dj(x)] 则判
x
→
∈
w
i
\quad \overrightarrow{x}\in w_i
x∈wi
3.3 判别函数值的鉴别意义、权空间及解空间
- n维特征空间 X n X^n Xn中,两类问题的线性判别界面方程为: d ( x → ) = w → 0 ‘ x → + w n + 1 d(\overrightarrow{x})=\overrightarrow{w}_0^`\overrightarrow{x}+w_{n+1} d(x)=w0‘x+wn+1
- 此方程表示一超平面
π
\pi
π.它有以下三个性质
- 系数矢量 w → 0 = ( w 1 , w 2 , . . . , w n ) ‘ \quad \overrightarrow{w}_0=(w_1,w_2,...,w_n)^` w0=(w1,w2,...,wn)‘是该平面的法矢量
- 判别函数 d ( x → ) d(\overrightarrow{x}) d(x)的绝对值正比于 x → \overrightarrow{x} x到超平面 d ( x → ) = 0 d(\overrightarrow{x})=0 d(x)=0的距离
- 判别函数值的正负表示出特征点位于哪个半空间中
-
权空间
- 增广特征矢量与增广权矢量是对称的
- 判别函数可以写成: d ( x → ) = w → ‘ x → = x → ‘ w → = x 1 w 1 + x 2 w 2 + . . . + x n w n + w n + 1 d(\overrightarrow{x})=\overrightarrow{w}^`\overrightarrow{x}=\overrightarrow{x}^`\overrightarrow{w}=x_1w_1+x_2w_2+...+x_nw_n+w_{n+1} d(x)=w‘x=x‘w=x1w1+x2w2+...+xnwn+wn+1
- 这里 x 1 , x 2 , . . . , x n , 1 x_1,x_2,...,x_n,1\quad x1,x2,...,xn,1则应视为相应的 w i w_i wi的”权“
-
解矢量
- 当训练模式 x → j ∈ w 1 时有 w → ‘ x → j > 0 \overrightarrow{x}_j\in w_1\quad 时有\overrightarrow{w}^` \overrightarrow{x}_j>0 xj∈w1时有w‘xj>0
- 当训练模式 x → j ∈ w 2 时有 w → ‘ x → j < 0 \overrightarrow{x}_j\in w_2\quad 时有\overrightarrow{w}^` \overrightarrow{x}_j<0 xj∈w2时有w‘xj<0
-
解空间
-
余量
- 为使解矢量可靠,使解区更小,可以采取增加训练模式数以及引入余量b,使 w → ‘ x → ≥ b \overrightarrow{w}^`\overrightarrow{x}\geq b w‘x≥b,从而达到更好的效果
3.4 Fisher线性判别
-
思想:多维 ⇒ ~\Rightarrow~ ⇒ Fisher变换 ⇒ ~\Rightarrow~ ⇒ 利于分类的一维
-
方法:求权矢量 w → ⇒ \overrightarrow{w}\Rightarrow w⇒求满足上述目标的投影轴的反向 w → 0 \overrightarrow{w}_0 w0和在一维空间中确定判别规则
-
Fisher方法实现步骤总结
- 把来自两类 w 1 / w 2 w_1/w_2 w1/w2的训练样本集X分成 w 1 w_1 w1对应的子集 X 1 X_1 X1和与 w 2 w_2 w2对应的子集 X 2 X_2 X2
- 由 m → i = 1 N i ∑ j x → j ( i ) ( i = 1 , 2 ) , 计算 \overrightarrow{m}_i = \dfrac{1}{N_i}\sum\limits_j \overrightarrow{x}_j^{(i)}(i=1,2),计算 mi=Ni1j∑xj(i)(i=1,2),计算 m i m_i mi
- 由 S W i = ∑ j ( x → j ( i ) − m → i ) ( x → j ( i ) − m → i ) ‘ S_{W_i}=\sum\limits_j(\overrightarrow{x}_j^{(i)}-\overrightarrow{m}_i)(\overrightarrow{x}_j^{(i)}-\overrightarrow{m}_i)^` SWi=j∑(xj(i)−mi)(xj(i)−mi)‘,计算各类的类内离差阵 S W 1 , S W 2 S_{W1},S_{W2} SW1,SW2
- 计算类内总离差阵 S W = S W 1 + S W 2 S_W=S_{W1}+S_{W2} SW=SW1+SW2
- 计算 S W S_W SW的逆矩阵 S W − 1 S_{W}^{-1} SW−1
- 按 μ → = S W − 1 ( m → 1 − m → 2 ) \overrightarrow{\mu}=S_W^{-1}(\overrightarrow{m}_1-\overrightarrow{m}_2) μ=SW−1(m1−m2),求解$\mu $
- 计算 m ~ = 1 N i ∑ j u → ‘ x j ( i ) = u → ‘ m → i \widetilde{m}=\frac{1}{N_i}\sum\limits_j\overrightarrow{u}^`x_j^{(i)}=\overrightarrow{u}^`\overrightarrow{m}_i m =Ni1j∑u‘xj(i)=u‘mi
- 计算 y t = m ~ 1 + m ~ 2 2 y_t=\dfrac{\widetilde{m}_1+\widetilde{m}_2}{2} yt=2m 1+m 2
- 对未知模式x判定模式类 u → ‘ x → = y ≷ y t ⇒ x → ∈ { w 1 w 2 \quad \overrightarrow{u}^`\overrightarrow{x}=y\gtrless y_t \Rightarrow \overrightarrow{x}\in \begin{cases}w_1 \\w_2\end{cases} u‘x=y≷yt⇒x∈{w1w2
3.5 一次准则函数及梯度下降法
3.5.1 感知器算法
3.5.2 一次准则函数及梯度下降法
3.6 二次准则函数及其解法
4 神经网络基础原理
-
基本神经元可视化
-
网络输入: z = ∑ i = 1 m x i w i + b z = x T w + b \quad z=\sum\limits_{i=1}^mx_iw_i+b\quad z=x^Tw+b z=i=1∑mxiwi+bz=xTw+b
-
偏置项:b
-
激活函数:f
-
输出到下一层: a = f ( z ) \quad a=f(z) a=f(z)
-
sigmoid函数: σ ( z ) = 1 1 + e − z \sigma(z)=\dfrac{1}{1+e^{-z}} σ(z)=1+e−z1
- σ ‘ ( z ) = σ ( z ) ( 1 − σ ( z ) ) \sigma^`(z)=\sigma(z)(1-\sigma(z)) σ‘(z)=σ(z)(1−σ(z))
-
-
神经网络中的反向传播
- 做出预测
- 计算损失
- 根据参数计算损失梯度
- 向相反的方向调整步进,更新参数
- 迭代计算
-
内核
-
池化:最大池化,平均池化
第四章 统计判决
-
全概率公式:设实验E的样本空间为S,A为E的事件, B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn为S的一个划分,且 P ( B i ) > 0 ( i = 1 , 2 , . . . , n ) P(B_i)>0(i=1,2,...,n) P(Bi)>0(i=1,2,...,n)
- P ( A ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + . . . + P ( A ∣ B n ) P ( B n ) P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+...+P(A|B_n)P(B_n) P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...+P(A∣Bn)P(Bn)
-
Bayes公式
-
P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 n P ( A ∣ B j ) P ( B j ) = P ( A ∣ B i ) P ( B i ) P ( A ) P(B_i|A)=\dfrac{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^nP(A|B_j)P(B_j)}=\dfrac{P(A|B_i)P(B_i)}{P(A)} P(Bi∣A)=j=1∑nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)=P(A)P(A∣Bi)P(Bi)
-
P ( A ) P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) P(A)P(B_i|A)=P(B_i)P(A|B_i) P(A)P(Bi∣A)=P(Bi)P(A∣Bi)
-
- P ( x → ) P ( w i ∣ x → ) = P ( w i ) P x → ∣ w i ) P(\overrightarrow{x})P(w_i|\overrightarrow{x})=P(w_i)P\overrightarrow{x}|w_i) P(x)P(wi∣x)=P(wi)Px∣wi)
- 先验概率: P ( w i ) P(w_i) P(wi)表示类 w i w_i wi出现的先验概率,简称 w i w_i wi的概率
- 后验概率: P ( w i ∣ x ) P(w_i|x) P(wi∣x)表示x出现条件下类 w i w_i wi出现的概率,称其为类别的后验概率
- 类概率:
p
(
x
∣
w
i
)
p(x|w_i)
p(x∣wi)表示载类
w
i
w_i
wi条件下的概率密度,即类
w
i
w_i
wi模式x的概率分布密度
-
最小误判概率准则判别
-
最小损失准则判别
-
最小最大损失准则
-
N-P(Neyman-Pearson)判别