目录
1.人工智能
科学百科:
人工智能
(Artificial Intelligence,AI)
是
研究
、
开发
用于
模拟
、
延伸
和扩展人的
智能
的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支
,它企图了解智能的实质,并生产出一种新的能以
人类智能
相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和
专家系统
等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类
智慧
的“容器”。人工智能可以对人的意识、思维的信息过程进行模拟。
2.机器学习
科学百科:
机器学习
是一门多领域交叉学科,涉及概率论、统计学、
逼近论
、
凸分析
、
算法复杂度
理论等多门学科。专门研究计算机怎样模拟或实现人类的
学习行为
,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习是人工智能及模式识别领域的共同研究热点。
传统机器学习的研究方向主要包括
决策树
、
随机森林
、
人工神经网络
、
贝叶斯学习
等方面的研究。
机器学习:
从数据中学习知识

分类:


3.模型评价指标
、
TP,TN,FP
和
FN
第
1位代表检测正确是否正确,第
2
位代表检测结果。
T:True, F: False; P: Positive,
可理解为阳性,
N: Negative,
阴性。
TP, TN, FP
和
FN
就是真假和阴阳的排列组合。
TP
就是真阳,检测是阳性,实际上也是阳性;
TN
就是真阴,检测是阴性,实际上也是阴性;
FP
是假阳,检测是阳性,但实际上是阴性;
FN
是假阴,检测是阴性,但实际上是阳性。
TP,TN,
检测试剂给力,检测准确
,
检测是阳就是阳,是阴就是阴
;
FP,FN
检测试剂能力弱,检测错误。
(1)Accuracy(准确率,最常用)
准确率:预测结果准确的概率,包含了正例也包含了负例。
准确率
但
Accuracy
往往不能反映一个模型性能的好坏。
※
不平衡数据集上,正类样本占总数的
5%
,负类样本占总数的
95%
;有一个模型把所有样本全部判断为负类,该模型准确率95%
,但该模型没有意义。
(2)Recall(查全率,召回率)
召回率:正确预测为正的占全部实际为正的比例。
查出阳性结果的实例占实际全部阳性的比例,即召回的比例。

※
疫情当下,核酸检测模型的目标是将所有感染的人给检测出来,即使会有误诊,但假阳是可以接受的,可再检进一步确定;而假阴则放过了病例,一方面延误治疗,另一方面危害大。
(3)Precision(查准率/精确率)
查准率:所有预测为正例的样本当中,正确的比例。

※
在警察追捕罪犯的模型上,不能像核酸监测那样要求,该模型的目
标是将罪犯准确地识别出来,而不希望有过多的误判。
(4)F1 Score(Balanced Score)
F1-score
是
Recall
和
Precision
的加权平均,
F1-score
∈ 0,1
,
值越
大
,
分类模型越
稳健
。
Recall
和
Precision
任何一个数值减小,
F1-score
都会减小,反之亦然
※
Precision
和
Recall
加权调和平均,并假设两者一样重要
, F1-score
越高,说明分类模型越稳健。
4.模型评价方法
(1)混淆矩阵
Confusion Matrix 也称误差矩阵,是表示精度评价的一种标准格式,用n
行
n
列的矩阵形式来表示。在人工智能中,混淆矩阵是可视化工具,特别用于
监督学习
,在
无监督学习
一般叫做匹配矩阵。

(2)P_R曲线
P-R曲线
的
P
就是查准率
Precision
,
R
就是查全率
Recall
。以
P
作为
纵坐标
,
R
作为
横坐标
,可以画出
P-R
曲线。

对于同一个模型,通过调整分类阈值,可以得到不同的
P-R
值,从而对应不同的曲线。
比较两个分类器好坏,显然是查得又准又全的比较好,也就是的
PR
曲线越往坐标(1,1)
的位置靠近越好。
若一个学习器的
P-R
曲线被另一个学习器完全”包住”,则后者的性能优于前者。当存在交叉时,可以计算曲线围住面积来判断。
(3)ROC曲线和AUC
ROC(Receiver Operating Characteristic)
曲线
,
受试者工作特征曲
线。
AUC(Area Under Curve)
被定义为
ROC
曲线下的面积。


真
正例率,
True Positive Rate
:
TPR = TP/ (TP+FN)=Recall
假
正例率,
False Postive Rate
:
FPR = FP/(FP+TN)
ROC
曲线并不能清晰的说明哪个分类器的效果更好。
AUC
作为数值可以直观的评价分类器的好坏,值越大越优。
显然
AUC
不会大于
1
;又由于
AUC ≥ 0.5(
二分类随机猜测,如抛硬币时
=0.5)
; 所以0.5≤AUC ≤1,因此
ROC
曲线一般都处于y=x这条直线的上方
(4)KS曲线
KS(Kolmogorov-Smirnov)
值,
KS=max(TPR-FPR)
,即为
TPR
与
FPR
的差的最大值

实例通过模型进行分类, 分类阈值不同,对应纵轴指标不同
KS=max(TPR-FPR)
,
KS
值用作评估模型区分能力的指标,
KS
值越
大
,模型的区分能力越
强
。
5.评价指标计算
上级给甲乙二人分配任务:从
100
人中挑出卧底。
甲锁定
18
人,其中有
12
人是卧底。 乙锁定10
人,其中有
8
人是卧底。
假设卧底的真实人数是
20
,请问甲乙二人的
准确率
、
召回率
、
精确率
分别是多少?
现在请大家拿出纸和笔来计算一下,看看大家能否掌握了这个计算公式

