[把好的习惯坚持下去]
————————————————————————————————————————————————————————
在现实生活里,我们能够轻而易举的识别人脸,识别语音,阅读,写字,从口袋中取出钥匙,或者根据气味判断苹果是否成熟,这大大掩盖了隐藏在这些貌似简单的识别行为背后的非常复杂的处理机制。模式识别(pattern recognition)----这种输入原始数据并根据其类别采取相应行为的能力----对我们的生存至关重要。为了具有这种能力,在过去的几千万年里面,我们进化出高度复杂的神经和认知系统。
1.绪论
1.1 什么是模式?
广义的说,存在于时间和空间中可观察的物体,如果我们区别它们是否相同或者是否相似,都可以称为模式(pattern)。模式所指的不是事物本身,而是从事物获得的信息,因此,模式往往表现为具有时间和空间分布的信息。模式的直观特性包括:可观察性,可区分性,相似性。
1.2 什么是机器学习?
研究如何构造理论,算法和计算机系统,让机器通过从数据中学习后可以进行如下工作:分类和识别事物,推理决策,预测未来等。(Wiki :Machine learning is a field of computer science that uses statistical techniques to give computer systems the ability to "learn" (e.g., progressively improve performance on a specific task) with data, without being explicitly programmed)
1.3 模式识别与机器学习的研究目的?
利用计算机对物理对象进行分类,在错误概率最小的情况下,使识别的结果尽量与客观物体相符合。Y=F(X)。
其中:X的定义域取自特征集。Y的值域为类别的标号集。F是模式识别的判别方法。
机器学习利用大量的训练数据可以获得更好的预测结果。
1.3.1模式识别系统的目标:
在特征空间和解释空间之间找到一种映射关系,这种关系也称之为”假说“
- 特征空间:从模式得到的对分类有用的度量,属性,或基元构成的空间。
- 解释空间:将c个类别表示为
,其中,Ω为所属类别的集合,称为解释空间。
1.3.2 机器学习的目标:
针对某类任务T,用P衡量性能,根据经验来学习和自我完善,提高性能。
1.3.3 假说的两种获得方法:
监督学习,概念驱动,归纳假说:在特征空间中找到一个与解释空间的结构相对应的假说。在给定模式下假定一个解决方案,任何在训练集合中接近目标的假说也都必须在”未知“的样本上得到近似的结果。特别的:
- 依靠已知所属类别的训练样本集,按它们特征向量的分布来确定假说(通常为一个判别函数),在判别函数确定之后能用它对未知的模式进行分类。
- 对分类的模式要有足够的先验知识,通常需要采集足够数量的具有典型性的样本进行训练。
非监督学习,数据驱动,演绎假说:在解释空间中找到一个与特征空间的结构相对应的假说。这种方法试图找到一种只以特征空间中的相似关系为基础的有效假说。特别的:
- 在没有先验知识的情况下,通常采用聚类分析方法,基于”物以类聚“的观点,用数学分析方法分析各特征向量之间的距离及分散情况。
- 如果特征向量集聚集于若干个群,可按照群间距离远近把他们划分成类。
- 这种按各类之间的亲疏程度的划分,若事先能知道应划分成几类,则可获得更好的分类结果。
1.4 系统构成:
1.4.1 模式识别的系统构成:
1.4.2 机器学习的系统构成:
1.5 模式识别系统组成单元
- 数据获取:用计算机可以运算的符号来表示所研究的对面。
- 预处理单元:去噪声,提取有用信息,并对输入测量仪器或其他因素所造成的退化现象进行复原。
- 特征提取和选择:对原始数据进行变换,得到最能反映分类本质的特征。
- 测量空间:原始数据组成的空间。
- 特征空间:分类识别赖以进行的空间。
- 模式表示:维数较高的测量空间--->维数较低的特征空间。
4. 分类决策:在特征空间中用模式识别方法把被识别对象归为某一类别。
基本做法:在样本训练集基础上确定某个判别规则,使得按这种规则对被识别对象进行分类所造成的错误识别率最小或者引起的损失最小。
1.6 机器学习系统组成单元
- 环境:是系统的工作对象(包括外界条件)