数据清洗步骤

原创 2016年08月30日 11:29:36

数据清洗可以通过5步做好:

1.把所有非数值变量转为数值变量含有人类知识的变量根据先验知识转化(比如日期转化为天数、年、月、日等,地理转化为经纬度、城市等级等,定序变量保留序数),不含有先验知识的非数值变量通过one-hot encoding一律转成0-1哑变量,此时所有变量都是数值型的了。

2.把一系列相似变量可以用统计量概括或补充(比如不同时期第三方信息、几个城市等用均值方差之类的信息)。

3.删掉那些空值与同一值占比过多的稀疏变量。

4.删掉共线变量 。

5.把空值填充好(中位数或平均数等),然后标准化。

数据挖掘一般流程(数据清洗,特征提取,建模,调参)

最近一直在实习,好长时间没更新博客了。哎,懒惰之心不可有啊!! 实习的岗位是数据挖掘相关的,所以正好把到目前为止实习期间遇到的一些问题、学到的一些东西总结一下,并参考了一些博客,自我提升。嘿嘿嘿~ 数...
  • cppjava_
  • cppjava_
  • 2017年08月07日 11:57
  • 574

大数据处理过程只需这四步,让你从0到1!

大数据这几年火得不要不要,如同“站在风口上的猪”,但很多人只是停留在耳闻的阶段,并不知道大数据真正的用途或是实操在哪,这其中也包括从事数据的朋友,无法落地实施,但数据却日益庞大,如何处理数据,如何让数...
  • dashenghuahua
  • dashenghuahua
  • 2016年09月12日 10:40
  • 3768

数据挖掘的一般过程

数据挖掘的一般过程本文主要参考了一篇文章(最后附),那篇文章不太全面,因此加入了自己一点理解。由于实践经验太少,水平有限,希望大神指正。 1. 数据集选取或构造根据任务的目的,选择数据集。或者从实际...
  • evillist
  • evillist
  • 2017年06月15日 10:13
  • 1126

数据清洗的一些梳理

(欢迎转载到个人朋友圈,转载时请带原文链接,公众号和其他媒体转载前请私信联系本人获取授权) 首先对@MayaG表示感谢,这篇文章是被你提的问题激发出的灵感,非常感谢~ 数据清洗, 是整个数据分析过...
  • GarfieldEr007
  • GarfieldEr007
  • 2016年05月25日 16:52
  • 2866

python数据清洗

1.缺失值的处理对于数据中缺失的值,可以有3种方法处理: 1.删除。比如餐厅的营业额,有几天去装修了,确实没营业,可以删除 2.不处理:有一些模型可以将缺失值作为一种特殊的值,可以直接建模。 3...
  • xuyaoqiaoyaoge
  • xuyaoqiaoyaoge
  • 2016年09月26日 17:07
  • 1156

浅谈数据清洗的一些要素

预处理阶段 预处理阶段主要做两件事情: 一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。...
  • qq_35686181
  • qq_35686181
  • 2016年09月22日 13:45
  • 1212

用MapReduce清洗数据

用MapReduce清洗数据 接触Hadoop平台大半年了,还从来没写过一次MapReduce的业务代码,刚好赶上清洗数据的业务需求,写了一个简单的MapReduce类,用来清洗数据,顺手把...
  • hfcenter
  • hfcenter
  • 2017年03月26日 20:06
  • 2446

转自:数据有意思;数据清洗的经验

http://www.36dsj.com/archives/22737 平时习惯了在某些特定的数据集合上做实验,简单的tokenization、预处理等步骤就足够了。但是在数据越来越大的年代,数...
  • irisat163
  • irisat163
  • 2016年09月05日 12:29
  • 1063

数据清洗工具kettle

kettle简介:          kettle是pentho的一个组件,用来做数据清洗的,现在已经支持很多数据库以及文件格式,也包括大数据hdfs等。有图形界面,也可以在linux下去调用,用起...
  • shenchuanlen
  • shenchuanlen
  • 2015年05月26日 09:47
  • 5444

数据挖掘中常用的数据清洗方法

对于数据挖掘来说,80%的工作都花在数据准备上面,而数据准备,80%的时间又花在数据清洗上,而数据清洗的工作,80%又花在选择若干种适当高效的方法上。用不同方法清洗的数据,对后续挖掘的分析工作会带来重...
  • Walterudoing
  • Walterudoing
  • 2016年06月29日 14:08
  • 6106
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数据清洗步骤
举报原因:
原因补充:

(最多只允许输入30个字)