panda资料前处理

原创 2018年04月15日 21:42:51

当我们把资料输入到ML Model时,常常需要对资料先做一些前处理,提升 Model的预测效果。


1.缺失值的处理方式主要有两种

          1.  丢弃,如果数据量够多

          2.  补值

使用Pandas去空值的方法“dropna”,dropna预设只要任一字段有空值,就会整笔删掉。可透过参数来调整,像是把how设为all,就是要全部为空才清掉,或是用subset指定当某一栏为空时才删。补值则使用fillna函式即可,依照以下范例即可补上固定值0、平均数、众数、中位数…

         1.  固定值0: df.fillna(0)

         2.  平均:df['B']=df['B'].fillna(df['B'].mean())

        3.  众数:df['B']=df['B'].fillna(df['B'].mode())


2. 类别数据的处理(有序、无序)

如果是Male, Female, Not Specified因为这三种都是等价的关系因此需要找一个方法让这三个属性距离原点是相同距离,One-hot encoding 就是解决这的问题的方法。

在pandas里面要使用onehot-encoding使用get_dummies这个函式就可以了


3. 数据特征缩放

简单来说特征缩放主要有两种方法(这两种常被混淆):

1.  Normalization

最常见的Normalization为0–1区间缩放,经过Normalization之后数据的范围会介在0~1之间,原本的最大值变为1,最小值变为0,

2. Standardization(标准化)

经过Standardization资料的平均值会变为0, 标准偏差变为1,

 

 

延伸阅读

1.  拉格朗日插值法

2.  机器学习中,有哪些特征选择的工程方法?

 



panda缺失值处理

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.htmlimport pandas as p...
  • shuishou07
  • shuishou07
  • 2017-11-10 11:12:30
  • 275

linuxFTP命令

登录FTP服务器的命令格式:ftp [-v][-d][-i][-n][-g][-s:filename][-a][-w:windowsize][computer]     各参数的含义:  ...
  • HEN_MAN
  • HEN_MAN
  • 2011-10-29 14:09:51
  • 2424

为PANDA制作的DWI按扫描次数分类的toolkit

最近在使用PANDA的过程中,出现了DWI的dicom文件夹输入存在问题的状况,对照manual中发现是因为医院为我们提供的DWI数据是42或84个(对应于2次扫描或4次扫描,没有进行按扫描次数分类。...
  • u013576018
  • u013576018
  • 2016-04-11 17:28:53
  • 404

PANDA pipeline的安装与使用-使用(3)输入及参数设置

大部分是翻译与manual,其中红字标出了使用时遇到的困难问题以及解决的方法。 正文 数据的输入!mainpipeline的输入! 1.如果输入是DICOM文件, 每个人一个目录,根据不同的成像手段...
  • u013576018
  • u013576018
  • 2016-03-23 21:32:56
  • 1181

发现panda(熊猫)对W32.Looked.I处理得不错

endurer 原创2006-10-20 第1版有位网友的电脑,装有赛门铁克的诺顿,每天都在报告发现W32.Looked.I,已清除。在带网络连接的安全模式下远程协助,相继用诺顿、Dr.WebCure...
  • Purpleendurer
  • Purpleendurer
  • 2006-10-20 22:34:00
  • 1494

学习Python大数据处理模块Pandas

适合初学入门 第一课 构造数据 本节基本了解Pandas里的一些数据结构和模块的基本使用,初步了解Pandas的提供的一些功能,学会基本使用。 创建数据 通过Python的zi...
  • u014036026
  • u014036026
  • 2015-02-09 13:50:18
  • 11975

pandas常用功能与函数介绍(结合实例,持续更新)

本文首先介绍Pandas常用功能及函数,最后通过实例举例说明。一、常用功能及函数简介包导入一般我们需要做如下导入,numpy和pandas一般需要联合使用:import pandas as pdimp...
  • weixin_41770169
  • weixin_41770169
  • 2018-03-13 14:38:56
  • 109

pandas数据合并与重塑(concat篇)

转载自:链接pandas作者Wes McKinney 在【python for data anlysis】中对pandas的方方面面都有了一个权威简明的入门级的介绍,但在实际使用过程中,我发现书中的内...
  • zhongjunlang
  • zhongjunlang
  • 2018-03-18 21:12:49
  • 52

非常全面的Gambit学习资料(中文)

  • 2010年01月23日 13:47
  • 17.93MB
  • 下载

PANDA pipeline的安装与使用-安装(1)

首先在http://www.nitrc.org/projects/panda/这里可以了解到panda的基本知识还有下载方式。 我选用ubuntu14.04作为Linux平台的操作系统。 装Ubu...
  • u013576018
  • u013576018
  • 2016-03-21 20:01:33
  • 1528
收藏助手
不良信息举报
您举报文章:panda资料前处理
举报原因:
原因补充:

(最多只允许输入30个字)