1、基本术语
数据集
样本
属性or特征
样本空间
预测离散值–分类,二分类,多分类
预测连续值–回归
监督学习:分类、回归
无监督学习:聚类
泛化能力:generalization,模型适用于新样本的能力
通常假设全样本服从一个未知分布D,每个样本都是独立地从这个分布上采样获得的(独立同分布),一般来说,训练样本越多,我们得到的关于D的信息越多,这样通过学习获得具有较强泛化能力的模型。
2、假设空间
归纳与演绎
归纳–枚举法,从具体事实总结一般性规律
演绎–三段论,凡金属都是导体,铜是金属,所以铜是导体。
把学习过程看做一个在所有假设组成的空间中进行搜索,目标是找到与训练集匹配的假设。可能存在多个与训练集一致的假设集合,成为“版本空间”
3、归纳偏好
在学习过程中对某种类型假设的偏好,例如“更平滑”,“更简单”。
归纳偏好对应了学习算法本身所作出的关于“什么样的模型更好”的假设。
算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能够取得好的性能。
重点:对于一个学习算法A,若它在一些问题上比学习算法B好,则必然存在另一些问题,B比A好。对任何算法都成立。
NFL定理(no free lunch theroem):假设所有问题出现的机会相同,即真实目标函数f是均匀分布的,那么总学习误差与学习算法无关。
但实际情况并不是这样。所以,脱离问题,空谈论”什么学习算法更好”毫无意义。
要谈论算法的相对优劣,必须要针对具体的学习问题。
数据挖掘
–数据库领域的研究为数据挖掘提供数据管理技术
–机器学习和统计学的研究为数据挖掘提供数据分析工具