使用Excel分析数据学习笔记之 二分类与混淆矩阵
最近在Coursera上从Excel到MySQL商业分析专项课程,为了督促自己学习,把笔记发布在这里。这仅仅是我基于课程的一些浅薄理解,如有错误欢迎指证!
混淆矩阵的构成:
- Condition 实际情况 (图中a、b)
- +: 实际情况为正的概率,condition incidence
- -:实际情况为负的概率
- 边际概率,概率和为1
- Classification 预判 (图中c、d)
- classification method used to classify an item as positive or negative
- 在信息不完全的情况下做出预先判断,存在错误
- probability of positive classification也叫classification incidence to test incidence.
- negative: probability of negative classification
- 边际概率,概率和为1
- 联合概率 (图中e、f、g、h)
- 判断方法:
-
预判(Positive/Negative)为第二个字母
-
第一个字母T/F: 你的预判与实际情况是否一致?一致则为True,不一致为False
e: True Positive (TP), 预判为positive, 实际情况为+,两者相符为true
f:False Negative(FN)
g: False Positive(FP)
h: True Negative(TN)
-
- 同样的,这四个联合概率的概率和为1
⚠️+ = TP+FN;- = FP+TN
e.g.1:Bombers and seagulls
案例背景
上世纪四十年代雷达的发明问世之初,技术还不是很成熟,只能得到模糊的图像反馈。而在英国与德国的闪电战中,德国轰炸机使英国人伤亡惨重。英军收到的模糊雷达图像可能是德军轰炸机,也可能是一群海鸥。如何根据模糊的图像反馈判断是否迎战?这个问题可以很好的被混淆矩阵和ROC曲线解决。
混淆矩阵
- Condition
- +: 轰炸机
- -: 海鸥
- Classification
- positive: 派出战机,正面迎战