数据清洗笔记(随笔)

——《干净的数据:数据清洗与入门实践》

数据清洗六步框架

1.问题陈述——提出主要要解决的问题
2.数据收集与存储
3.数据清洗——数据如何调整?需要删除哪些信息?
4.数据分析和机器学习——使用什么样的算法和机器学习方法?
5. 数据展现和可视化实现——应该以怎样的形式展现?
6. 问题决议——第一步提出问题的答案究竟是什么?结果有啥不足?还有其他方案没?

可绘制图表的工具
Google Spreadsheets
D3 JavaScripte:教程:http://bl.ocks.org/mbostock/3883245
Excel
Python

文件类型和编码

1.文本文件常见格式

JSON格式:扩展性好,容易使用,并支持多值属性、可缺失属性、嵌套属性/层级属性;

2.归档文件

tar(磁带归档)

-- c 代表向创建一个归档文件,v 可以在加载文件列表的时候打印出文件名字,f 用于指定输出文件的名字;
tar cvf fileArchive.tar reallyBigFile.csv anotherBigFile.csv
-- “untar”一个文件,x 代表提取(eXtract);
tar xvf fileArchive.tar
-- t 以列表形式显示tar文件中的内容;
tar -tf fileArchive.tar

压缩文件

压 缩解 压
Zipzip filename.csv filename.zipunzip filename.csv
gzipgzip filename.csv filename.zipgunzip filename.csv
bzip2bzip2 filename.csv filename.zipbunzip2 filename.csv

如somefile.tar.gz/.tgz/.tbz2 文件,一般是先经过 tar 程序的归档处理,之后又被 gzipbzip2 程序进行压缩。

优 点缺 点
zip在所有系统都存在,压缩和解压素都不赖压缩率不高
gzip压缩和解压缩都比较快,OS X和Linux都可以用windows不可用
bzip2压缩文件比gzip和zip 都要小,压缩时间相对较长,广泛用于OS X和Linuxwindows需要专门软件
rarwindows上广泛使用OS X和Linux只有特殊软件才能处理,压缩速度不如其他方案理想
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值