基础知识——格式、类型与编码
文本文件类型主要有三种
(1)分隔格式(结构化格式)文件、记录式文件
举例:TSV、CSV
需要注意的操作:
能使用文本编辑器查看不可见的字符
封闭分隔数据(逗号分隔符与千位分隔符的数值之间的冲突解决:删除数值中的千位分隔符,对含有千位分隔符的数值进行封闭处理)
字符转义:\(“light “Carolina” blue”)
(2)JSON格式(半结构化格式)
特点:
数据的值都有其对应的属性标识,而且顺序无关紧要,有时甚至可以缺失某些属性。
支持多值属性和多层次结构。
作为数据交换格式极为流行
扩展性好,容易使用
注意:
字符串值必须用双引号进行封闭处理,注意转移字符\的使用。
逗号不可以出现在数字类型的数据中,除非这个值被当作字符串并且使用引号封闭。
(3)HTML格式(非结构化格式)
使用HTML标签对数据进行处理,有时HTML标签也存在着使用极其不规范的问题
归档与压缩
归档与压缩时,一个文件既是文本文件也是二进制文件。
归档文件
磁带归档文件tar
压缩文件
数据类型、空值与编码
数据类型
数字类型数据
希望能用数据进行数学计算,以数字形式进行比较,按数值顺序存储项目
日期和时间
使用DBMS专属的方法来导入与导出日期格式的数据。
使用日期、时间函数对数据进行格式化处理。
字符串
事先声明要使用的字符串长度是多少,或是要使用哪种类型的字符,考虑字符编码。
其他数据类型
集合/枚举、布尔、Blob(二进制大对象)
数据类型间的相互转换
数据损耗:同种类型间的不同范围转换、不同精度间的转换
转换策略
基于数据存储的位置,介绍数据科学清洗过程中比较常见的数据类型转换策略:
- 基于SQL的操作:
使用各类SQL函数进行类型转换
- 基于文件的操作:
适用于采用隐式类型结构的文件类型(电子表格和半结构化的JSON数据)
EXCEL
·选择想要修改的单元格,使用ribbon上的下拉菜单进行操作
·使用Format Cells
·istext()、isnumber()与条件格式化特性配合使用(在数据量不多的情况下定位错误数据,或是不正确的输入数据)
·TEXT()函数把数字类型的日期转换成格式为yyyy-mm-dd的字符串类型日期
JSON
大多数情况下使用编程的方式来构建JSON对象。
隐藏在数据森林中的空值
区别对待Oracle
零:可测量数字,在数值系统中是有意义的
空:在不同的情况下产生不同的含义(询问是什么,告知没有)
空格字符/空白:包括其他不可见字符如制表符、回车、换行符等
null:不等于任何值,甚至不包括其本身(不清楚是否有)
字符编码
使用length()函数和char_length()函数分别获得字节长度和字符长度,以得到多字节格式编码的数据个数。
使用UTF-8编码创建数据库。
处理文件级别的UTF-8编码
(1)过滤UTF-8字符
#可能会损失一些比较有用的数据
for tweet in stream:
encoded_tweet = tweet['text'].encode('ascii','ignore')
print counter, "-", encoded_tweet[0:10]
f.write(encoded_tweet)
(2)以UTF-8字符写入文件
在打开文件的时候使用支持UTF-8的codecs或io库
f = codecs.open('outfile.txt', 'a+', 'utf-8')
在程序顶端引入io库,然后使用它提供的open()函数,在这个函数中传入指定的编码
f = io.open('outfile.txt', 'a+', encoding='utf-8')
(python2.7)