数据不平衡之SMOTE算法

在企业的数据分析中,很少会遇到正负样本数据比例平衡的状况。通常情况是,绝大多数为正样本,而只有极少数(几个或者十几个)负样本。在这种情况下,不论是用LR,SVM或者基于提升方法的随机森林,直接用该数据集进行学习的效果都不会太好,原因是这些方法的学习结果都会偏向于样本较多的一类。另一个方面,对学习结...

2018-10-02 07:00:03

阅读数:35

评论数:0

【机器学习】分类性能度量指标 : ROC曲线、AUC值、正确率、召回率、敏感度、特异度

本文转自 http://zhwhong.ml/2017/04/14/ROC-AUC-Precision-Recall-analysis/ 在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。...

2018-10-02 06:50:22

阅读数:38

评论数:0

《机器学习与实践》读书笔记及代码(三)

#波士顿地区,用线性回归,去预测房价 from sklearn.datasets import load_boston boston = load_boston() print boston.DESCR from sklearn.cross_validation import train_t...

2018-07-29 22:46:19

阅读数:32

评论数:0

《机器学习与实践》读书笔记及代码(二)

基础篇:支持向量机(分类) #从sklearn.datasets里导入手写体数字加载器 from sklearn.datasets import load_digits #从通过数据加载器,获得手写体数字的数码图像数据,并存储在digits变量中 digits = load_digits() ...

2018-07-29 14:12:55

阅读数:52

评论数:0

《机器学习与实践》读书笔记及代码(一)

第一章:简介篇 案例:“良/恶性乳腺癌肿瘤预测”完整代码样例 # coding: utf-8 # In[1]: import pandas as pd # In[2]: df_train = pd.read_csv('../Datasets/Breast-Cancer/brea...

2018-07-15 13:47:21

阅读数:54

评论数:0

周志华《机器学习》读书笔记(二)

一. 经验误差与过拟合 错误率:分类错误的样本数,占样本总数的比例。 精度:分类正确的样本数,占样本总数的比例。 显然有,错误率+精度=1 恒成立 误差:学习器的实际预测输出,与样本的真实输出之间的差异。 训练误差/经验误差:学习器在训练集上的误差 泛化误差:学习器在新样本上的误差 显然我们的...

2017-10-11 00:29:37

阅读数:521

评论数:2

周志华《机器学习》读书笔记(一)

本书前几章讲的都是基本术语,最硬核的数学部分很少,所以比较简单。 机器学习的主要内容,是从数据产生模型,再由模型做出相应的判断和预测。 比如已经知道某房屋所在街区的其他房屋的价格,通过给这些面积,价格等各异的其他房屋的数据进行分析,产生模型,利用此模型来预测本房屋的市场价格。 一. 基本术...

2017-10-05 16:25:41

阅读数:2329

评论数:0

提示
确定要删除当前文章?
取消 删除