Mitchell定义机器学习:对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。
1. 任务
通常机器学习任务定义为机器学习系统应该如何处理样本,而样本是我们希望机器学习系统处理的对象或事件中已经被量化特征的集合。样本通常表示为一个向量 x ∈ R n \mathbf{x} \in R^n x∈Rn,其中向量的每一个元素 x i x_i xi是一个特征。
常见的机器学习任务如下:
任务 | 目标 | 代表性算法 |
---|---|---|
分类 | 指定某些输入属于 k k k类里的哪一类,即学习函数 f : R n → { 1 , ⋯   , k } f: R^n \rightarrow \{1,\cdots, k\} f:Rn→{1,⋯,k}。 | 决策树、支持向量机、贝叶斯分类器、Softmax分类 |
回归 | 对给定输入预测数值,即学习函数 f : R n → R f: R^n \rightarrow R f:Rn→R。 | 逻辑回归、支持向量回归、Softmax回归 |
去躁 | 基于损坏的样本 x ~ \tilde{\mathbf{x} } x~预测原样本 x \mathbf{x} x,即预测条件概率分布 p ( x ∣ x ~ ) p(\mathbf{x}\vert\tilde{\mathbf{x} }) p(x∣x~)。 | 去躁自编码器 |
密度估计 | 学习函数 p m o d e l : R n → R p_{model}:R^n \rightarrow R pmodel:Rn→R。 | 高斯混合模型 |
2. 性能度量
性能度量 P P P是特定于系统执行的任务 T T T而言的。
- 准确率(accuracy): 模型输出正确结果的样本比例。
- 错误率(errorrate):模型输出错误结果的样本比例。
- 精准率(precision):预测为正例的结果中真正正例占的比例(二分类问题)。
- 召回率(recall):所有正例中预测出真正正例占的比例(二分类问题)。
- F1:精准率和召回率的调和平均。
- TPR(真正例率):与召回率相同的定义。
- FPR (假正例率):所有负例中预测出真正负例所占的比例。
- ROC (Receiver Operating Characteristic):以TPR为纵坐标,FPR为横坐标作图。
- AUC(Area Under ROC Curve):ROC曲线下所占的面积。
3. 经验
算法在整个数据集上获取经验,可分为监督学习算法和无监督学习算法两种。
监督学习算法训练含有很多特征的数据集,并且数据集中的样本都有一个标签 y \mathbf{y} y,学习到的是条件概率 p ( y ∣ x ) p(\mathbf{y|x}) p(y∣x)。
无监督学习算法训练含有很多特征的数据集,一次观察多个样本,试图显式或隐式地学习出概率分布 p ( x ) p(\mathbf{x}) p(x)。如聚类算法、主成分分析、自编码器等。