0、分类问题和回归问题的区别
预测建模是使用已知数据的模型对没有标签或结果的新数据进行预测的过程。
预测建模可以理解为找到一个最佳映射函数 f ( x ) f(x) f(x) 逼近于输入变量 X X X的真实分布 y y y的过程。所以,可以将所有的逼近任务分为分类任务和回归任务。
分类问题和回归问题对真实世界的预测建模方法不同。
分类预测建模是用映射函数 f ( x ) f(x) f(x)对输入变量 X X X近似地预测出离散输出变量 y y y的任务。
回归预测建模是用映射函数 f ( x ) f(x) f(x)对输入变量 X X X近似地预测出连续输出变量 y y y的任务。
通俗的说:
- 分类是对离散类样本的标签进行预测(例如,判断照片中人的性别、判断邮件是垃圾邮件还是有用的邮件、海中不同的船只的类别预测)。
- 回归问题是对连续类的数量进行预测(例如,预测明天下雨的概率、预测北京的房价、预测人体的身高范围等等)。
1、评估分类问题的性能指标(classification)
分类问题是监督类学习(supervision learning)的一个重要问题。在机器学习中主要分两大类:
- 通过从已知标签的样本中学习到一个分类器(分类决策函数,分类超平面)。
- 用该分类器对新的样本的类别进行预测。
评估一个分类器的好坏包括许多项指标。在实际应用中选择正确的评估方法是十分重要的。下面就一一列举一些评价分类问题好坏的性能指标。
1、混淆矩阵
假设是二分类问题,计为正例(positive) 和 负例(negative) 分别是:
- True positives(TP) \text{True positives(TP)} True positives(TP):真正,实际为正例且被分类器划分为正例的实例数(划分正确)。
- False positives(FP) \text{False positives(FP)} False positives(FP):假正,实际为负例但被分类器划分为正例的实例数(划分错误)。
- False negatives(FN) \text{False negatives(FN)} False negatives(FN):假负,实际为正例但被分类器划分为负例的实例数(划分错误)。
- True negatives(TN) \text{True negatives(TN)} True negatives(TN):真负,实际为负例且被分类器划分为负例的实例数(划分正确)。
所以,上述过程可以用混淆矩阵来表示:
上面的表示方法和混淆矩阵中, T T T和 F F F代表该判别是对的还是错的(true false), P P P和 N N N代表这个样本是正的还是负的。
2、准确率(Accuracy)
准确率是分类器分类正确的样本数量与样本总数的比:
Accuracy = T P + T N T P + T N + F P + F N , \text{Accuracy}=\frac{TP+TN}{TP+TN+FP+FN}, Accuracy=TP+TN+FP+FNTP+TN,
该公式反映了分类器对整个样本的判定能力,即能够将正的判定为正,负的判定为负。
3、错误率(Error)
错误率(Error)则正好与准确率的含义相反,计算公式如下:
Error = F P + F N T P + T N + F P + F N . \text{Error}=\frac{FP+FN}{TP+TN+FP+FN}. Error=TP+TN+FP+FNFP+FN.
4、精准率(Precision)
精准率是指即被分类器判定为正类样本中真正的正类样本所占的比重,公式如下:
Precision = T P T P + F P , \text{Precision}=\frac{TP}{TP+FP}, Precision