本文为阅读总结个人认为书里概念性的、对本人有帮助的内容,仅供参考。
机器学习中的对象通常被称为实例。多有可能的实例构成的集合被称为实例空间。
当数据中存在噪声时,情形则会变得错综复杂。噪声既包括标签噪声,也包括实例噪声。
数据中带有噪声时,通常不建议将模型精确地与训练数据拟合,以免因噪声的存在产生过拟合问题。
准确率所度量的是测试实例中被正确分类的比例。
错误率:被错误分类的实例在整个测试集中所占的比例。
准确率和错误率之和为1。
被正确分类的正例和负例分别称为真正例和真负例,被错分类的正例称为假负例,被错分类的负例称为假正例。
真正率为实际正例中被预测为正类的实例所占的比例,而精度则是在被预测为正类的实例中实际正例所占的比例。
在覆盖图中,任意两个具有相同准确率的分类器均可由斜率为1的线段连接。
在一个规范化的覆盖图中,斜率为1的线段连接了具有相同平均查全率(真正率和真负率的均值)的分类器。
规范化的覆盖图通常被称为ROC图。
常见的损失函数:1、0-1损失;2、hinge损失;3、logistic损失;4、指数损失;5、平方损失。
人们通常会将“ROC曲线下方的面积”(Area Under(ROC) Curve)简写为AUC。——排序准确率
分组模型的ROC曲线中线段的数量与模型中实例空间的分划数目是一致的;对于数据集中的每个样本,评分模型都有一条线段与之对应。
通过降低模型的分辨率,有时反而可以获得更好的排序性能。
排序器和评分分类器的主要差别体现在排序器仅假设得分越高月有利于正类,但对于扽分的尺度或者说对将正例和负例分离的得分阈值并不做任何假设。·
类概率估计子或简称概率估计子,是一种评分分类器,其输出为一个概率向量,其中每个分量与一个类别相对应。
通过并列得分整合线段,可消除ROC曲线中的局部凹面。
通过ROC曲线的凸包来获取校准得分的过程所对应的技术术语为等张校准,这是因为其中所涉及的数学问题成文等张回归。