第一章 绪论
机器学习的定义:
机器学习是从大量的数据中自动或半自动地寻找模式的过程,而且这个模式必须是有用的。
我们可以用同样的方法为学习建立一个可操作的定义:
当事务以令其自身在将来表现更好为标准来改变其行为时,它学到了东西。
学习意味着思考和目的。
在机器学习领域,一个永恒的成功的研究过程是以压缩一个海量数据库开始的。
数据挖掘的应用领域:web挖掘(PageRank算法)、包含评判的决策、图像筛选、负载预测、诊断、市场和销售等。
第二章 输入:概念、实例和属性
在机器学习中,输入采用概念、实例和属性的形式。
机器学习以实例集的形式呈现给学习者。
数据挖掘领域存在4种不同的学习方式:
1. 分类学习:用一个已分类的样本集来表示学习方案,并希望从这个样本集中学习对未来样本进行分类的方法。
2. 关联学习:寻找任何特性之间的关联,而不仅仅是为了预测一个特定的类值。
3. 聚类:寻找能够组合在一起的样本,并据此分组。
4. 数值预测:预测出的结论不是一个离散类而是一个数值量。
数值预测是分类学习的一种变体,只不过结论是一个数值而不是分类。
第三章 输出:知识表达
1. 表 - 与输入相同的,最简单最基本的方法。
2. 线性模型 - 其输出仅仅是属性值的总和,当然若属性值各有权重,则要加权求和。这里,输入和输出的属性值都是数值型。
3. 树 - 一个独立实例集学习的“分治”方法,自然得到一个称为决策树的表达形式。
4. 规则 - 一个规则的前件或者前提条件是一系列的测试,就像在决策树节点上的测试,而后件或者结论则适合于规则所覆盖实例的一个或多个分裂,或者给出实例在所有类上的概率分布。
分类规则
关联规则(能够预测任何属性而不仅仅是类,也能预测属性的组合)
包含例外的规则
基于实例的表达:在遇到一个新的实例时,就会在记忆中找出与之最相似的一个训练实例。唯一的问题是如何理解“ 相似 ”。这种直接在样本上工作,而不是建立规则,这就是基于实例的学习。基于实例的学习方法和其他已介绍的学习方法的不同之处是“学习”发生的时间不同,基于实例的学习是懒惰的。在基于实例的学习中,使用一种距离度量将每个新实例与现有的实例进行比较,利用最接近的现存实例赋予新实例类别,这称为最近邻分类方法。
基于实例的表达方式有一个明显的弱点,就是它不能对所学到的(知识)给出一个清晰的数据结构。