ps:这是对模式识别与机器学习这本书的学习笔记,主要是一些自己的看法和总结(需要有一定的机器学习基础,同时要结合PRML这本书)
模式识别:模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。
(一),这一章首先介绍模式识别的概念和步骤,并一个例子进行说明。–特征,学习,测试,以及相关方法。其次说明了模式识别过程中其实是运用概率论、决策论、信息论的相关知识。
(二),概率论:
1,模式识别与概率论的关系:在模式识别领域的⼀个关键概念是不确定性的概念,概率论提供了⼀个合理的框架,⽤来对不确定性进⾏量化和计算。
2,接着介绍了概率论的相关概念:
1)从联合分布、边缘分布,条件概率出发提出了概率的两个规则(加和、乘积):即,边缘分布是联合分布的关于某一个变量的概率求和;联合分布是边缘分布和条件分布的乘积。同时也提出了贝叶斯定理。
2)从连续分布出发解释了加和和乘积规则(用积分代替了求和)
3)介绍了期望、方差、协方差:
期望:是函数的加权平均值,代表的是函数值相对概率的的加权值。(也有条件期望,同时可以根据大数据定律对期望进行估计)
方差:是函数值与期望差值平方的期望值,它度量了f(x)在均值E[f(x)]附近变化性的⼤⼩。
协方差:它表⽰在多⼤程度上x和y会共同变化。如果独立,协方差为0。
3,接着介绍了用概率论建模的两种思路:频率学、贝叶斯概率(简单地说,频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。举例而言,想要计算抛掷一枚硬币时正面朝上的概率,我们需要不断地抛掷硬币,当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。然而,贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,这套理论根本不言说关于「世界本体」的东西,而只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。频率学派下说的「随机事件」在贝叶斯学派看来,并不是「事件本身具有某种客观的随机性」,而是「观察者不知道事件的结果」而已,只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下,观察者又试图通过已经观察到的「证据」来推断这一事件的结果,因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此,在贝叶斯框架下,同一件事情对于知情者而言就是「确定事件」,对于不知情者而言就是「随机事件」,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态。)。简单地说:频率学方法假设事件的概率是有一个值的,可以用频率去估计概率;而贝叶斯的想法是事件本身是随机,我们有一个先验认识,接着根据不断的根据已知的数据修改我们的先验认识。
1)先验认识,后验概率,似然函数:在观察到数据之前,我们有⼀些关于参数w的假设,这以先验概率p(w)的形式给出。能够通过后验概率p(w | D),在观测到D之后估计w的不确定性。p(D | w)由观测数据集D来估计,可以被看成参数向量w的函数,被称为似然函数(likelihood function)。它表达了在不同的参数向量w下,观测数据出现的可能性的⼤⼩。
2)似然函数p(D | w)都起着重要的作⽤。然⽽,在两种观点中,使⽤的⽅式有着本质的不同。在频率学家的观点中,w被认为是⼀个固定的参数,它的值由某种形式的“估计”来确定,这个估计的误差通过考察可能的数据集D的概率分布来得到。频率学家⼴泛使⽤的⼀个估计是最⼤似然(maximum likelihood)估计,其中w的值是使似然函数p(D | w)达到最⼤值的w值。这对应于选择使观察到的数据集出现概率最⼤的w的值。在机器学习的⽂献中,似然函数的负对数被叫做误差函数(error function)。由于负对数是单调递减的函数,最⼤化似然函数等价于最⼩化误差函数。相反,从贝叶斯的观点来看,只有⼀个数据集D(即实际观测到的数据集),参数的不确定性通过w的概率分布来表达。
4,接着介绍了高斯分布:
主要介绍高斯分布的定义,和高斯分布的似然函数,并通过对似然函数的极大对参数进行估计(极大似然估计)-这是频率学派的思想。
5,接着分别充频率学派和贝叶斯学派进行曲线拟合:
频率学派:根据极大似然估计进行拟合,等价于最小化损失数
贝叶斯学派:先给出一个参数的先验认识,参数关于数据的后验概率最大化建模,w的后验概率正⽐于先验分布和似然函数的乘积。最⼤化后验概率等价于最⼩化正则化的平⽅和误差函数
(接着的模型选择和维度灾难就是我们一般的理解)
(三)决策论
1,决策论与概率论,模式识别的关系:概率论是如何提供⼀个⾃始⾄终的数学框架来量化和计算不确定性。当决策论与概率论结合的时候,在涉及到不确定性的情况下做出最优的决策,这在模式识别中经常遇到。
(决策论的观点:把p(Ck)称为类Ck的先验概率,把p(Ck | x)称为对应的后验概率。因此p(C1)表⽰在我们拍X光之前,⼀个⼈患癌症的概率。类似地,p(C1 | x)表⽰使⽤X光中包含的信息通过贝叶斯定理修改之后的对应的后验概率。⽬标是最⼩化把x分到错误类别中的可能性,那么根据直觉,我们要选择有最⼤后验概率的类别)
2,最小化错误分类率:⽬标很简单,即尽可能少地作出错误分类。可以这样表述:如果把每个x分配到后验概率p(Ck | x)最⼤的类别中,那么我们分类错误的概率就会最⼩。(这就和概率论中后验概率最大化建模相互一致)
3,最小化期望损失:损失函数也被称为代价函数(cost function),是对于所有可能的决策或者动作可能产⽣的损失的⼀种整体的度量。我们的⽬标是最⼩化整体的损失。(这是对最小错误分类率的加强版,即是:对错误分类造成的损失进行度量)
4,拒绝选项:对很难做出决策的项处理
5,对分类的决策论观点:把分类问题划分成了两个阶段:推断(inference)阶段和决策(decision)阶段。在推断阶段,我们使⽤训练数据学习p(Ck | x)的模型。在接下来的决策阶段,我们使⽤这些后验概率来进⾏最优的分类。另⼀种可能的⽅法是,同时解决两个问题,即简单地学习⼀个函数,将输⼊x直接映射为决策。这样的函数被称为判别函数(discriminant function)(对应的有三种方式以及对比)
6,回归的决策论观点:最小化损失函数进行拟合(同样也有三种方法)
(四)信息论
1,信息论与决策论、概率论的关系:信息论是对信息量的度量,信息量有概率来决定;同时信息量的大小又与决策有关。
2,信息量的度量以及平均信息量熵的定义。
1)熵和最短编码长度的这种关系是⼀种普遍的情形。⽆噪声编码定理表明,熵是传输⼀个随机变量状态值所需的⽐特位的下界。
2)定义了连续变量的信息熵(微分熵),以及条件熵。
3)离散分布的情况下,我们看到最⼤熵对应于变量的所有可能状态的均匀分布。考虑连续变量的最⼤熵。最⼤化微分熵的分布是⾼斯分布。
4),条件熵满⾜下⾯的关系:H[x, y] = H[y | x] + H[x]
3,分布p(x)和分布q(x)之间的相对熵定义,我们可以把Kullback-Leibler散度看做两个分布p(x)和q(x)之间不相似程度的度量。
(我们想要对p(x)建模。我们可以试着使⽤⼀些参数分布q(x | θ)来近似这个分布。q(x | θ)由可调节的参数θ控制(例如⼀个多元⾼斯分布)。⼀种确定θ的⽅式是最⼩化p(x)和q(x | θ)之间关于θ的Kullback-Leibler散度。同时,最⼩化Kullback-Leibler散度等价于最⼤化似然函数。)
4,变量x和变量y之间的互信息的定义:联合概率分布与边缘概率分布乘积之间的Kullback-Leibler散度。
(互信息和条件熵之间的关系为:I[x, y] = H[x] − H[x | y] = H[y] − H[y | x] :因此我们可以把互信息看成由于知道y值⽽造成的x的不确定性的减⼩)