机器学习Machine Learning
定义(Mitchell 1997):对于某类任务T和性能量度P,一个计算机程序被认为可以从经验E中学习,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。
(1)任务T:学习过程本身不能算是任务。学习是我们所谓的获取完成任务的能力。通常机器学习任务定义为机器学习系统如何处理样本。(样本:收集到的已经量化的特征的集合 x∈R^n)
机器学习常见任务列举:
分类,回归,转录,机器翻译,结构化输出,异常检测,合成和采样,去噪,缺失值填补,密度故居等
(2)性能度量P:评估机器学习算法的能力。
(3)经验E:大部分学习算法可以被理解成在整个数据集上获取经验。
根据学习过程中的不同经验,机器学习可以大致分为无监督(unsupervised)算法和监督(supervised)算法
无监督学习:训练含有很多特征的数据集,然后学习出这个数据集上有用的结构性质。(教会计算机做一些事情)
监督学习:训练含有很多特征的数据集,不过数据集中的样本都有一个标签(label)或目标(target)。(计算机自己做一些事情)
监督学习的分类:回归(Regression)、分类(Classification)