引言
- 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
- 机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“机器学习算法”。
基本术语
- 从数据中学得模型的过程称为“学习”(learning)或“训练”(training),这个过程通过执行某个学习算法来完成。
- 回归与分类:利用机器学习对离散值进行预测时,称为“分类”,而对连续值进行预测时,称为“回归”。
- 监督学习与无监督学习:根据训练数据是否有标记信息,学习任务可大致分为两大类,“监督学习”与“无监督学习”,分类和回归是前者的代表,聚类则是后者的代表。
- 学得模型适用于新样本的能力,称为“泛化”(generalization)能力。
- 一般来说训练样本越多,我们得到的样本服从的分布D的信息越多。
假设空间
- 归纳与演绎:前者是从特殊到一般的泛化,后者是从一般到特殊的特化。
- 概念学习:广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,因此亦称为“概念学习”或“概念形成”,概念学习中最基本的是布尔概念学习,即对“是”与“不是”这样的可表示为0/1布尔值的目标概念的学习。
- 死记硬背式学习:“记住”训练样本,就是所谓的“机械学习”。
- 版本空间:现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”。
归纳偏好
- 归纳偏好:归纳偏好可看做学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”,归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能
- “奥卡姆剃刀”是一种常用的,自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。如果采用这个原则,并且假设我们认为“更平滑”意味着“更简单”。
- 没有免费的午餐定理(No Free Lunch Theorem)维基百科
应用现状
- 大数据三大关键:机器学习(数据分析)、云计算(数据处理)、众包(数据标记)。
- 机器学习和数据库领域是数据挖掘两大支撑。