统计模式识别学习笔记(十一)

密度估计的非参数法

在参数法中,我们事先规定了密度函数的结构形式。然而,在很多情况下,我们无法用一组参数来刻画密度函数,这时就需要借助密度估计的非参数法了。

1. 密度估计的基本性质

  • 无偏性

    如果 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 是独立同分布的 d d d 维随机变量,其连续密度为 p ( x ) p(x) p(x)
    p ( x ) ⩾ 0 , ∫ R d p ( x ) d x = 1 p(x)\geqslant 0,\int_{R^d}p(x)dx=1 p(x)0,Rdp(x)dx=1
    既然这些随机变量的测量值已知,如何估计 p ( x ) p(x) p(x) 呢?如果估计量 p ^ ( x ) \hat{p}(x) p^(x) 满足上式,那么它就是有偏的,特别的:
    E [ p ^ ( x ) ] ≠ p ( x ) E[\hat{p}(x)]\ne p(x) E[p^(x)]=p(x)
    其中,
    E [ p ^ ( x ) ] = ∫ p ^ ( x ∣ x 1 . . . x n ) p ( x 1 ) . . . p ( x n ) d x 1 . . . d x n E[\hat{p}(x)]=\int \hat{p}(x|x_1...x_n)p(x_1)...p(x_n)dx_1...dx_n E[p^(x)]=p^(xx1...xn)p(x1)...p(xn)dx1...dxn
    当样本足够大,即 n → ∞ n\rightarrow \infty n 时,可以认为估计值是无偏的。

  • 一致性

    M S E x ( p ^ ) = E [ ( p ^ ( x ) − p ( x ) ) ] 2 = v a r ( p ^ ( x ) ) + { b i a s ( p ^ ( x ) ) } 2 MSE_x(\hat{p})=E[(\hat{p}(x)-p(x))]^2\\=var(\hat{p}(x))+\lbrace bias(\hat{p}(x))\rbrace^2 MSEx(p^)=E[(p^(x)p(x))]2=var(p^(x))+{bias(p^(x))}2
    其中
    v a r ( p ^ ( x ) ) = E [ ( p ^ ( x ) − E [ p ^ ( x ) ] ) 2 ] b i a s ( p ^ ( x ) ) = E [ p ^ ( x ) ] − p ( x ) var(\hat{p}(x))=E[(\hat{p}(x)-E[\hat{p}(x)])^2]\\bias(\hat{p}(x))=E[\hat{p}(x)]-p(x) var(p^(x))=E[(p^(x)E[p^(x)])2]bias(p^(x))=E[p^(x)]p(x)
    积分平方误差 ( I S E ) (ISE) (ISE) 和均值积分平方误差 ( M I S E ) (MISE) (MISE) 的内容就不再说明了。

2. k k k 近邻法

k k k 近邻法是一种非常简单并且直观的方法。给定一个训练数据集,将测量值 x x x 分配到 C C C 个类中之一的 k k k 近邻分类过程如下:

  • 用适当的距离度量确定 k k k 个距测量值 x x x 最近的训练数据向量。
  • x x x 归入 k k k 个近邻向量投票最多的那个类。

需要实现准备的是近邻数量 k k k 、距离度量和训练数据集。

接下来,让我们来看一下数学的表现形式:

训练数据集为: T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\lbrace (x_1,y_1),(x_2,y_2),...,(x_N,y_N) \rbrace T={(x1,y1),(x2,y2),...,(xN,yN)} 其中, x i x_i xi 是特征向量, y i y_i yi 是特征向量的类别,而测量值仍为 x x x

也就是说,根据给定的距离度量,在训练集中找到与测量值最近的 k k k 个点,然后再根据这 k k k 个点中 x 1 , . . . , x k x_1,...,x_k x1,...,xk 的类别数量判断出测量值 x x x 的类别。有时候,可能会出现多解的情况,可以在通过平均向量再次刻画距离的度量。就好比,两组数据平均值相同,但是方差及标准差不同,为了稳定性我们往往会选择标准差小的。

y = a r g m a x c j ∑ x i ∈ N k ( x ) I ( y i = c j ) , i = 1 , 2 , . . . , N ; j = 1 , 2 , . . . , K y=argmax_{c_j}\sum_{x_i\in N_k(x)}I(y_i=c_j),i=1,2,...,N;j=1,2,...,K y=argmaxcjxiNk(x)I(yi=cj),i=1,2,...,N;j=1,2,...,K

对于公式,不再做任何解释。 k k k 近邻法的特殊情况是 k = 1 k=1 k=1 的情形,也被称为最近邻算法。

L p ( x i , x j ) = ( ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ p ) 1 / p L_p(x_i,x_j)=(\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p)^{1/p} Lp(xi,xj)=(l=1nxi(l)xj(l)p)1/p

p = 2 p=2 p=2时,是我们熟知的欧氏距离;

p = 1 p=1 p=1时,称为曼哈顿距离;

p = ∞ p=\infty p= 时,它是各个坐标距离的最大值,形式如下:
L ∞ ( x i , x j ) = m a x i ∣ x i ( l ) − x j ( l ) ∣ L_{\infty}(x_i,x_j)=\mathop{max}\limits_i|x_i^{(l)}-x_j^{(l)}| L(xi,xj)=imaxxi(l)xj(l)

k k k 值的选择通常会对结果产生极大的影响。在应用中,一般选取一个比较小的数值,最优解通过交叉验证法来选取。

3. 题外话

差不多一周的时间没有更新博客了,这一段时间里我也在反思,应该以一个怎样的视角来学习手中的这几本资料。那么在下一篇博客中,会继续介绍 k d kd kd 树的概念,也是 k k k 近邻法的一种实现。浏览量破2k了,谢谢各位。

全书,搞了很久才搞到。。。想传数字图像处理全书的,可惜我没有权限。要的朋友可以联系我 正如前面已经提到的那样,本书重点讨论统计模式识别方法中的特征提取和分类决策。 从教学角度出发,首先研究各种分类器的设计方法是qJ取的,在这个基础上就更容易理解特 征提取和选择的重要性。对于一个实际的模式识别系统,当然只有在特征确定以后,才能对 分类器的参数进行计算。实际工作中,这两者常常是互相交又进行的,对不同的方案要进行 反复比较,特别是设计过程还可能影响到对训练集的重新编辑。本书的前几章着重讨论监 督学习,即已知训练集样本所属类别的条件下分类器的设计方法。然后讨论特征提取和选择 的准则和算法。在这之后,讨论在不利用或没有样本所属类别信息的情况下的分类方法,即 非监督模式识别方法。根据有关模式识别理论和技术的发展、我们在讨论了统计模式识别的 经典内容之后,分别在第ll章中介绍“人工押经网络”,在第12章中介绍“模糊模式识别方 法”及第13章中介绍“统计学习理论和支持向量机”。最后在第14章巾简要介绍“模式U1别 在语音信号数字处理中的应用举例”、第15章中介绍“印刷体汉字识别小的特征提取”。希望 通过这些实例使读者对一些模式识别方法在一维信导和二维因像识别中的应用钉一个更直 观的认识;同时也可了解到利用信号处理和图像处理技术获取模式识别的特征的一些常用 方法。当然,由于篇幅和本书的目的所限,对这些例子的介绍只能是较简单的,仪供读者参 考,在学习模式识别课程时可以不讲、感兴趣者可以课后阅读。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值