——《干净的数据:数据清洗与入门实践》
数据清洗六步框架
1.问题陈述——提出主要要解决的问题
2.数据收集与存储
3.数据清洗——数据如何调整?需要删除哪些信息?
4.数据分析和机器学习——使用什么样的算法和机器学习方法?
5. 数据展现和可视化实现——应该以怎样的形式展现?
6. 问题决议——第一步提出问题的答案究竟是什么?结果有啥不足?还有其他方案没?
可绘制图表的工具:
Google Spreadsheets
D3 JavaScripte:教程:http://bl.ocks.org/mbostock/3883245
Excel
Python
文件类型和编码
1.文本文件常见格式
JSON格式:扩展性好,容易使用,并支持多值属性、可缺失属性、嵌套属性/层级属性;
2.归档文件
tar(磁带归档):
-- c 代表向创建一个归档文件,v 可以在加载文件列表的时候打印出文件名字,f 用于指定输出文件的名字;
tar cvf fileArchive.tar reallyBigFile.csv anotherBigFile.csv
-- “untar”一个文件,x 代表提取(eXtract);
tar xvf fileArchive.tar
-- t 以列表形式显示tar文件中的内容;
tar -tf fileArchive.tar
压缩文件:
压 缩 | 解 压 | |
---|---|---|
Zip | zip filename.csv filename.zip | unzip filename.csv |
gzip | gzip filename.csv filename.zip | gunzip filename.csv |
bzip2 | bzip2 filename.csv filename.zip | bunzip2 filename.csv |
如somefile.tar.gz/.tgz/.tbz2 文件,一般是先经过 tar 程序的归档处理,之后又被 gzip 和bzip2 程序进行压缩。
优 点 | 缺 点 | |
---|---|---|
zip | 在所有系统都存在,压缩和解压素都不赖 | 压缩率不高 |
gzip | 压缩和解压缩都比较快,OS X和Linux都可以用 | windows不可用 |
bzip2 | 压缩文件比gzip和zip 都要小,压缩时间相对较长,广泛用于OS X和Linux | windows需要专门软件 |
rar | windows上广泛使用 | OS X和Linux只有特殊软件才能处理,压缩速度不如其他方案理想 |