数据清洗步骤

原创 2016年08月30日 11:29:36

数据清洗可以通过5步做好:

1.把所有非数值变量转为数值变量含有人类知识的变量根据先验知识转化(比如日期转化为天数、年、月、日等,地理转化为经纬度、城市等级等,定序变量保留序数),不含有先验知识的非数值变量通过one-hot encoding一律转成0-1哑变量,此时所有变量都是数值型的了。

2.把一系列相似变量可以用统计量概括或补充(比如不同时期第三方信息、几个城市等用均值方差之类的信息)。

3.删掉那些空值与同一值占比过多的稀疏变量。

4.删掉共线变量 。

5.把空值填充好(中位数或平均数等),然后标准化。

相关文章推荐

liunx挂载数据盘操作步骤

  • 2016年06月27日 16:37
  • 429KB
  • 下载

JDBC 访问数据的步骤

  • 2017年03月14日 22:18
  • 21KB
  • 下载

oracle数据库数据导入导出步骤(入门)

oracle数据库数据导入导出步骤(入门)说明: 1.数据库数据导入导出方法有多种,可以通过exp/imp命令导入导出,也可以用第三方工具导出,如:PLSQL 2.如果熟悉命令,建议用exp/im...
  • Cow_cz
  • Cow_cz
  • 2017年04月18日 16:38
  • 2376

数据仓库优化步骤

  • 2012年05月21日 10:15
  • 6KB
  • 下载

JQuery、AJAX加载数据时候的loading加载动画实现步骤

对于AJAX,异步传输数据,那肯定是要等待服务器的数据返回,对于客户来说,等待数据会让他们失去耐心,一种加载动画的方式,可以让客户知道,这是需要一点时间的,客户体验比较友好,下面就来实现这个功能吧。1...

mysql根据日志恢复数据详细步骤

  • 2017年08月10日 10:12
  • 84KB
  • 下载

python爬虫(3)——python爬取大规模数据的的方法和步骤

python爬取大规模数据的的方法和步骤:一、爬取我们所需要的一线链接channel_extract.py 这里的一线链接也就是我们所说的大类链接:from bs4 import Beautiful...

拓普康全站仪传数据步骤

  • 2015年04月18日 20:58
  • 166KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数据清洗步骤
举报原因:
原因补充:

(最多只允许输入30个字)