基本术语
1.数据集
样本或示例的集合
2.属性(特征)
反映事件或对象在某方面的表现或性质的事项
3.属性空间/样本空间/输入空间
属性张成的空间
4.监督学习与无监督学习
根据训练数据是否拥有标记信息,学习任务分为两大类,监督学习与无监督学习
监督学习:分类、回归
无监督学习:聚类
5.泛化能力
模型适用于新样本的能力
6.归纳与演绎
归纳:特殊到一般的泛化过程,即从具体的事实归结出一般性规律
演绎:从一般到特殊的特化过程,即从基础原理推演出具体情况
7.归纳偏好
算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”
8.数据挖掘
从海量数据中发掘知识,这就必然必然涉及到海量数据的管理和分析。
数据库领域的研究为数据挖掘提供数据管理技术。
机器学习和统计学的研究为数据挖掘提供数据分析技术。