在机器学习系统设计的时候会遇到一类数据集:Skewed Classes 。这意味着在分类时一种类别比其他的类别多的多。
会出现的情况:构建的模型的精确度(代价) 甚至不如直接将其全部分为数量多的那个类别。比如:分类是否获得学校奖学金,分类是否是癌症患者。
带来的问题:将精确度(或者代价)作为衡量算法是否好的标准变的不再有效。
解决的方法:使用Precision(精准率) and Recall(召回率) 取代精确度(代价) 。
1. 图解Precision和Recall
图中True 或 False 表示预测是否准确,Postive 或 negative 表示预测的两种类别。
Precision=True positivePredicted postive=True positiveTrue positive +