机器学习之偏斜类误差度量

标签: 机器学习
2人阅读 评论(0) 收藏 举报
分类:

机器学习分类模型存在一种情况叫偏斜类。偏斜类简单理解就是在训练模型时由于正样本和负样本之间的严重不平衡,导致模型最后检测全部都是1或者全部都是0。假设正样本的y值为1,当正样本远远多于负样本的时候,训练好的模型就会一直输出1,这会给我们判断模型优劣带来一定的障碍,比如模型输出1的概率是99.8%,输出0的概率是0.2%,这里我们就会认为模型的精度很好,误差很小。但是其实这种结果是由于数据集的不平衡导致的。因此我们迫切需要一种新方法判断模型的优劣而不仅仅是从accuracy和error。

因此我们接下来引出两个参数一个是precision,另一个是recall。如下图:

这里写图片描述
Actual class是实际的类别,Predicted class是预测的类别。当预测类别和真实类别均为1时为True positive(TP),当真实类为0预测为1则说明预测错误为False positive(FP),当预测为0真实类为1则预测错误为False negative(FN),当预测和真实均为0时说明为True negative(TN)。

假设y=1是要检测的类别:

precision(查准率) =TP / (TP+FP) 查准率是真实类别和预测类别均为1然后除以预测类别为1的总和(红色框框)
Recall(召回率) = TP / (TP+FN) 召回率是真实类别和预测类别均为1除以真实类为1(不管预测对不对,黄色框框

当出现偏斜类,假设正样本很多,负样本很少时就会出现模型一直识别为1,这样就会使得召回率很高,查准率很低,当正样本很少,负样本很多,模型就会一直识别0,就会导致召回率接近为0。因此当出现偏斜类时就能根据这两个参数判断模型的性能,我们实际应用中希望召回率和查准率两者均高一点,模型性能会好一些。

由于查准率和召回率有两个数值,有时候难以抉择,如下图 :
这里写图片描述

有三个算法,3个算法的查准率和召回率如上图,如何根据这些数值选择机器学习算法。先观察第三个算法,召回率很高,查准率很低说明模型一直识别1,样本出现偏斜。

可根据如下公式计算出的数值大小判断选择哪一个算法,P代表查准率,R代表召回率:
这里写图片描述

查看评论

斯坦福大学机器学习笔记——机器学习系统设计(误差分析、查全率和查准率、F1值)

这次博客我们主要讨论机器学习系统设计的主要问题,以及怎样巧妙的构建一个复杂的机器学习系统。 我们先用一个例子引入机器学习系统的设计: 以一个垃圾邮件分类器算法为例: 对于该问题,我们首先要做...
  • wyl1813240346
  • wyl1813240346
  • 2017-12-05 16:38:41
  • 266

[机器学习] Coursera笔记 - 机器学习应用的建议-Part3

本文主要整理自“Advice for Applying Machine Learning”课程的笔记资料,包括假设函数的评估、数据集划分、模型选择问题、过拟合与欠拟合,偏差和方差,数据的重要性,以及机...
  • walilk
  • walilk
  • 2016-11-11 00:30:44
  • 1721

数据偏斜的处理

转自:http://wenku.baidu.com/link?url=g2guKl_TnsP-emCmc_eG7zSAhxMIeWzoPcLcygkJ6BDtOSz5zggDqIPLbIRZDCaXv...
  • xuxiatian
  • xuxiatian
  • 2017-01-25 15:50:55
  • 931

说说那些机器学习中的性能度量方式

说说那些机器学习中的性能度量方式主要分为两类问题 - * 分类问题 * - * 回归问题 *一、回归问题 在回归问题中,最常用的性能度量方式是: 最小均方误差  1msumni=0(f(xi)−...
  • a1628864705
  • a1628864705
  • 2017-02-22 20:49:38
  • 868

深度学习笔记(五)第五章 深度学习基础

深度学习是一种特殊的机器学习。要了解深度学习需要对机器学习有扎实的理解。本章是对整本书需要使用的最重要的通用原理的简单课程。 什么是学习算法?比如:线性回归。大多数学习算法需要预先设置好超级参数(h...
  • ouyangshixiong
  • ouyangshixiong
  • 2016-11-23 18:01:36
  • 1152

提高模型识别率——偏差、方差问题

Introduction 本篇是针对当凭直觉做完一个Baseline以后,如何提高现有的识别率?依然凭直觉有以下几种方法: 增加训练数据集 挑选出更少的特征 增加其他特征 增加多项式x1*x2 减少或...
  • sqiu_11
  • sqiu_11
  • 2017-07-22 22:09:56
  • 677

【机器学习-西瓜书】八、集成学习:结合策略;多样性;总结

推荐阅读: 总结;绝对多数投票法;误差-分歧分解8.4 结合策略关键词: 平均法;投票法;学习法;硬投票;软投票一开始就说到,集成学习有两个关键,第一,个体学习器;第二,结合策略。对于个体学习器,通...
  • u011995719
  • u011995719
  • 2017-09-06 10:36:32
  • 966

《机器学习》阅读心得——八、集成学习

1 个体与集成 2 Boosting 3 Bagging与随机森林 31 Bagging 32 随机森林 4 结合策略 41 平均法 42 投票法 43 学习法 5 多样性 51 误差-分歧分解 52...
  • TaoismShi
  • TaoismShi
  • 2017-08-16 22:50:21
  • 528

约束条件下二次误差度量简化方法

上一章主要从场景可见性剔除、多分辨率模型简化、基于图像与GPU的加速绘制以及场景数据组织等方面介绍场景加速绘制的基本原理与方法。本章将首先介绍多分辨率模型简化部分中的二次误差度量方法,然后提出约束条件...
  • pizi0475
  • pizi0475
  • 2011-03-23 09:42:00
  • 1928

Coursera 机器学习(by Andrew Ng)课程学习笔记 Week 6(二)——误差分析与数据集偏斜处理

Coursera 机器学习(by Andrew Ng)课程学习笔记 Week 6(二) 误差分析与数据集偏斜处理...
  • stalbo
  • stalbo
  • 2018-01-30 23:18:15
  • 88
    个人资料
    持之以恒
    等级:
    访问量: 3162
    积分: 395
    排名: 18万+
    最新评论