数据预处理
panda_zjd
http://my.csdn.net/#
展开
-
异常值检测算法
闲话:最近总是特别嗜睡,不知为何床对我的引力总是让我死死的赖在上面,大概是懒癌又犯了....要改。异常值分析是检验数据是否有录入错误以及含有不合常理的数据的过程,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响,重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。常用的异常值检测方法主要有: 1. 简单统计量分析:先对变量做一个原创 2017-05-13 14:50:17 · 46268 阅读 · 2 评论 -
交叉验证(Cross Validation)
Sklearn库中关于交叉验证的资料 http://scikit-learn.org/stable/modules/cross_validation.html交叉验证(Cross Validation)主要是用来验证分类器性能的一种统计分析方法,其基本思想: 将原始数据进行分组,一部分为训练集,另一部分为验证集,首先用训练集对分类器进行训练,再利用验证集来测试得到的模型,以此来作为评价分类器的原创 2017-05-15 13:49:55 · 2213 阅读 · 0 评论 -
代价敏感学习
代价敏感的学习方法是机器学习领域中的一种新方法,它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。例如在医疗中,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”不同;在金融信用卡盗用检测中,“将盗用误认为正常使用的代价”与将“正常使用误认为盗用的代价”也不同。通常,不同的代价被表示成为一个N×N的矩阵Cost中,其中N 是类别的个数。Cost[i, j]表示将一个i转载 2017-05-17 13:23:30 · 21081 阅读 · 0 评论 -
SMOTE原理及实现
Smote算法原理: python2.7 算法实现: 原算法只能针对N采样率小于100%或者N为100%整数的参数进行采样。我实现的代码可对任意N>0的采样率从进行SMOTE。详情见源码#!/usr/bin/env python2# -*- coding: utf-8 -*-from sklearn.neighbors import NearestNeighborsimport原创 2018-01-29 22:05:50 · 5734 阅读 · 0 评论