写在前面的话
都是什么鬼,为什么学校的洗手液和老板用的沐浴乳是一个味道的,我现在在敲代码,整个手上都弥漫着一股老板的味道,深深的恐惧感油然而生
1.基本概念
监督学习(supervised learning)
分类问题 数据是有标签的
无监督学习
聚类问题, 数据没有标签
监督学习一般使用两种类型的目标变量:
标称型
数值型
标称型的目标变量的结果一般只在有限的数据集中取
数值型变量则可以从无限的数值集合当中取得, 数值型目标变量主要用于回归分析
2. Positive and Negative
在一个二分问题中,将实例分为正类(positive)或者负类(negative).对于一个二分问题,会出现下面四种情况.
如果一个实例是正类并且也被划分为正类,即为真正类(True Positive)
如果实例是负类却被预测为正类,称之为假正类(False Positive)
如果实例是负类被预测成负类,称之为真负类(True Negative)
如果实例是正类却被预测成负类,称之为假负类(False Negative)
注意:,它们的单位都是个数,单位是个数,个数个数!!!
TP:正确肯定的数目;
TN:正确拒绝的非匹配的数目
FN:漏报,没有正确找到的匹配数目
FP: 误报,给出的匹配是不正确的数目
在这些随机实验当中,实际上的正样本数是:
TP+FN
实际上的负样本数是:
TN+FP
在很多地方,我们习惯上把真正的阳性记做P,把检测的结果为阳性记做P’:
P=TP+FN
其一是真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN),刻画的是分类器所识别出的 正实例占所有正实例的比例。另外一个是负正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN),计算的是分类器错认为正类的负实例占所有负实例的比例。还有一个真负类率(True Negative Rate,TNR),也称为specificity,计算公式为TNR=TN/ (FP+ TN) = 1-FPR。
我们举个个例子
在一次检查中,我们测得有10个人是得病的,但是其中只有7个人是真正得病的,准确率就是在检测为正类的样本中,真正确定的正类样本
Precision准确率 = TP/(TP+FP)
recall召回率 , 查全率,命中率(hit rate),在实际的病人中被找到的病人的概率
recall = TP/(TP+FN)
正确率ACC,指的是在所有的实验样本中,正确的部分占整体的多少.
ACC= T/ALL
= (TP+TN)/(TP+TN+FN+FP)
错检率,虚警率(FPR)
实际上没有得病的人错误的检测了多少
FPR=FP/(FP+TN)