- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 自然语言处理
task1IMDB数据集、THUCnews数据集探索分析、学习召回率、准确率、ROC曲线、AUC、PR曲线基本概念1 IMDB数据集探索分析下载IMDB数据集探索数据整数转换回字词准备数据构建模型创建验证集训练模型评估模型创建准确率和损失随时间变化的图2THUCnews数据集探索分析读取数据与分词3学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念1 IMDB数据集探索分析impor...
2019-03-03 21:49:23 579 1
原创 数据不平衡之SMOTE算法
在企业的数据分析中,很少会遇到正负样本数据比例平衡的状况。通常情况是,绝大多数为正样本,而只有极少数(几个或者十几个)负样本。在这种情况下,不论是用LR,SVM或者基于提升方法的随机森林,直接用该数据集进行学习的效果都不会太好,原因是这些方法的学习结果都会偏向于样本较多的一类。另一个方面,对学习结果进行评估时,假如正样本占95%,负样本仅占5%,这样甚至不需要学习,直接把所有新样本预测为正,准确率
2017-07-21 19:25:45 8598
原创 支持向量机SVM
发现一篇非常好的学习SVM的博客http://blog.csdn.net/on2way/article/details/47731455(1~5系列)可惜没有python的实现代码下面是自己写的一个简单Python调用代码以及参数解释'''SVC参数解释 (1)C: 目标函数的惩罚系数C,用来平衡分类间隔margin和错分样本的,default C = 1.0; ----惩
2017-07-19 20:04:21 383
原创 离群点检测方法
离群点检测一、什么是离群点离群点是一个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产生的一样。有时也称非离群点为“正常数据”,离群点为“异常数据”。离群点不同于噪声数据。噪声是被观测变量的随机误差或方差。一般而言,噪声在数据分析(包括离群点分析)中不是令人感兴趣的。如在信用卡欺诈检测,顾客的购买行为可以用一个随机变量建模。一位顾客可能会产生某些看上去像“随机误差”或“方差”
2017-07-19 15:23:18 50046 1
原创 【总结】数据预处理
实习有一段时间了,一直在公司做风控项目。项目的过程中,算法的选择和实现加起来只花了不到一礼拜的时间就搞定了,而期间特征变量的选择以及对数据的各种处理却花了我们大半个月的时间。我觉得,对于一个数据分析人员,最重要的能力不是会用多少算法,编程实现能力有多强,而是数据的预处理。数据预处理,往往对结果会产生很大的影响,不同的处理方式,可能得出完全不同的结论。因此,必须要重视数据。下面是我对这些年做项目以及
2017-06-22 16:20:24 2898
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人