@ Concept
数据挖掘领域的四个不同的学习方式:classification learning(分类学习)关联学习(association learning) 聚类(clustering) 数值预测(numeric prediction)
1.分类学习优势成为有指导的学习(supervised learning) 学习的方案是在指导下进行的,这里说的指导的意思是每一个训练的样本都有一个明确的的结论。这些结论称为样本的类。
2.关联学习中没有指出特定的类,问题是如何在数据中找出有趣的结构,关联规则可以“预测”任何一个属性,不只是类,还可以一次预测一个以上的属性值。
3. 样本不存在一个特定类的时候,可以采用聚类的方法将那些看上去自然会落在一起的样本集合在一起。
4.数值预测是分类学习的一种变体,他预测的是一个值,而不是一个分类。eg:cpu性能问题就是一个预测数值的例子
@样本
1.Machine learning的方案是一个实例集,这些实例通常被称为样本,现在更加专业的术语就是“实例”来表示输入,每一个数据集都可以表示一个实例与属性的矩阵
2.仅明确指出肯定样本且采用一个不变的假设(剩下的都是否定的样本)的做法称为闭合世界假定(closed world assumption)
2.4输入准备
(1):数据收集
数据仓库(data warehousing):数据仓库提供了一个访问成组数据的借口,他超越了部门的界限。
(2):ARFF格式文件
ARFF格式文件:是一个独立,无序的实例组成的数据集标准表示方法,该文件不涉及实例间的关系。(具体看书貌似不太懂)
(3):稀疏数据
(4):属性类型:ARFF文件格式允许2种基本数据类型:名词性数值和数量值。
(5):残缺值:通常值得是超出正常范围的数据
(6):不正确的值,了解数据