第二章 输入:概念、实例和属性
2.1 概念
数据挖掘的应用有4种类型:分类学习(监督学习,训练集中数据有明确的类别)、关联学习(通常仅包含非数值的属性)、聚类(当样本不存在一个特定的类时)和数值预测。不管采用什么方式进行学习,被学习的东西成为概念,学习方案产生的输出就是概念描述。
2.2 样本
每一个实例都是一个被用来学习的单一、独立的概念样本。一个有限关系(复杂、非独立)的有限集总是能通过反向规格化方法被重新转换成单个表(独立实例组成),但是缺陷是会产生虚假规则性。
2.3 属性
存在四种测量标准:名词性值(sunny, overcast, rainy)、有序值(hot, mild, cool)、区间值和比率值。其中,主要运用名词性值和有序值。
2.4 输入准备
数据收集之后,将其转换成ARFF格式(格式如下所示)。
% ARFF file for the weather data 注释 @relation weather 关系名称为weather
@attribute outlook { sunny, overcast, rainy } 名词属性值 @attribute temperature numeric 数值属性 @attribute humidity numeric @attribute windy { true, false } @attribute play? { yes, no } 类属性,要预测的值
@data 实例数据开始的标志 % 14 instances 14个实例如下 sunny, 85, 85, false, no overcast, 83, 86, false, yes 如果有残缺值,用?代替 … … |
尽管天气问题需要从其他属性值中预测出类值:play?,但是在数据文件中类属性与其他属性并没有任何区别。这意味着可以在同样的文件上考察每一个属性究竟能否从其他属性预测出,或用同样的文件来寻找关联规则和聚类。
ARFF格式除了名词属性值和数值属性值之外,还有字符串属性值和日期属性:
@attributedescription string @attributetoday date
另外,输入准备还需要处理数据稀疏性、残缺值和不正确值。
第三章输出:知识表达
3.1 决策表
表示机器学习输出结构的最简单、最基本的方法是采用和输入一样形式——决策表。当然关键问题是要确定去除哪些属性而不会影响最终的决策。
3.2 决策树
分治法思想自然引申出决策树的表达形式。对各类属性值进行分支时,值得注意的是对残缺值的处理:作为一个独立的值;将它分配到获得最多实例的那个分支。
3.3 分类规则
分类规则是取代决策树的一种普遍使用方法。一些逻辑表达式组成的条件语句。
如: if x = 1 and y = 0 then class =a; … …
3.4 关联规则
关联规则能够预测任何属性,不仅仅是类,所有关联规则也能预测属性的组合。一个关联规则的覆盖量(coverage)是关联规则能够正确预测的实例数量。正确率(accuracy)也叫置信度(confidence)是将正确预测的实例数量表示为它在关联规则应用所涉及的全部实例中占据的比例。
对于双重结论的规则一定要注意:
If windy = false and play = no then outlook = sunny and humidity = high
它不仅仅是下面两句的简写形式,因为这个涉及到满足最小覆盖量和最小正确率(参考4.5),因此,这个其实更加严格。
If windy = false and play = no then outlook = sunny
If windy = false and play = no then humidity = high
3.5 包含例外的规则
当出现新的实例并且不符合现有的规则,此时用例外(except)对原规则修改,更符合人们的思维。规则格式示例:
Default:Iris-setosa 缺省类 except if … … then … … except … … 例外 else … … |
3.6 包含关系的规则
属性值并不重要,重要的是属性之间的关系,这样的规则称为关系规则。大多数机器学习方法并不考虑关系规则,因为代价太大,但是可以使用命题规则的方法来使用关系,新增一个属性来表示两个原始属性之间的关系。
3.7 数值预测树
对于预测数值构建的决策树,其叶节点是所有到达这个叶节点的实例的平均值,这样的决策树称为回归树(regression tree)。一般回归树的平均误差比回归公式小,但是建立较复杂,并且计算平均误差并不是一个评估模型性能的好方法。
3.8 基于实例的表达
对一个新实例,在训练实例中寻找与之最相似的一个,问题就转化为如何衡量相似。这种方法的缺点是,它不能对所学到的给出一个清晰的数据结构。
3.9 聚类
表示聚类的不同方法有:绝对划分、允许重叠部分的划分、属于不同聚类的概率和分级聚类(树图描述)。