1.1 模式识别的重要性
目的:将对象分类
重要应用:
1.机器视觉系统。分析图像生成描述信息
2.字符识别。印刷体识别,手写识别
3.计算机辅助诊断
4.语音识别
5.数据库中的数据挖掘与知识检索。
对象检索是基于关键词描述和部分字匹配——大量的人工标注
基于内容的检索——对象间的相似性
6.相似性搜索与DNA序列比对
1.2 特征、特征向量和分类器
例子:医疗图像分类任务
A.良性 B.恶性
数据库中有一系列A/B样本
以灰度值标准差σ
和均值 μ为坐标画图:
和均值 μ为坐标画图:
1.2.1 用来分类的测量方法与测量值——特征值
一般情况下l个特征,
他们一起组成特征向量
特征——随机变量
特征向量——向量
1.2.2 决定分类器将特征空间划分为不同的类空间——决策线
关键问题:
怎么得到特征?
特征数最好是多少?
怎么设计分类器?
如何让评价分类器性能?
1.3 有监督、无监督和半监督学习
有监督学习——有一个可用训练数据集,并通过挖掘先验已知信息来设计分类器
无监督学习or聚类——没有已知类别标签的训练集数据可用。
在此情况下给定一组特征向量x揭示潜在相似性,并将相似特征向量分在一组
半监督学习or模式识别——已得出原始未知类别的模式——标记数据
+已知类别的训练模式 ——未标记数据【针对标记数据很有限的情况】