一、机器学习概念
1.1 什么是机器学习
机器学习是研究如何通过计算的手段,利用经验来改进系统的性能,而经验往往是指数据。机器学习本质上是一种复杂的算法,它通过在大量的数据中挖掘隐含的信息,从而达到预测输出和分类的目的。
1.2 目标
通过学习得到的模型,很好的适用于新的样本,这种能力也叫泛化能力。
1.3 基本术语
数据集:n条记录的集合
示例(样本、特征向量):每条记录关于一个事件或者对象的描述 ,即一条记录
属性(特征):反映事件或对象在某一方面的表现或者性质的事项,即一个字段
属性值:属性的取值
属性空间(样本空间、输入空间):属性张成的空间
样本的“”维数“”:即属性的个数
样例:拥有了标记信息的示例
标记空间(输出空间):所有标记的集合
1.4 学习任务的分类
监督学习和非监督学习(训练数据是否拥有标签)
监督学习:
分类:预测离散型数据的输出
回归:预测连续性数据的输出
非监督学习:
聚类:对训练集中的数据进行分组,每组为一个簇
1.5 假设空间
假设空间:一个事物或对象所有假设组成的空间
版本空间:多个假设与训练集一致、即存在一个与训练集一致的“”假设集合“”,称为版本空间
1.6 归纳偏好
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。
作用:通过学习得到多个模型,学习算法必须对其有一个偏好,否则会产生摇摆不定的结果
奥卡姆的剃刀(Occam’s razor): 若有多个假设与观察一致,选最简单的。 但有时候评判最简单需要借助其他机制
没有免费午餐定理(NFL定理):,假设所有“问题”出现机会相同,或所有问题同等重要,那么所有算法的期望性能一致。 脱离具体问题谈什么算法最好,毫无意义。