《干净的数据——数据清洗入门与实践》(二)

基础知识——格式、类型与编码

文本文件类型主要有三种

(1)分隔格式(结构化格式)文件、记录式文件
举例:TSV、CSV
需要注意的操作
能使用文本编辑器查看不可见的字符
封闭分隔数据(逗号分隔符与千位分隔符的数值之间的冲突解决:删除数值中的千位分隔符,对含有千位分隔符的数值进行封闭处理)
字符转义:\(“light “Carolina” blue”)

(2)JSON格式(半结构化格式)
特点:
数据的值都有其对应的属性标识,而且顺序无关紧要,有时甚至可以缺失某些属性。
支持多值属性和多层次结构。
作为数据交换格式极为流行
扩展性好,容易使用

注意:
字符串值必须用双引号进行封闭处理,注意转移字符\的使用。
逗号不可以出现在数字类型的数据中,除非这个值被当作字符串并且使用引号封闭。

(3)HTML格式(非结构化格式)
使用HTML标签对数据进行处理,有时HTML标签也存在着使用极其不规范的问题

归档与压缩

归档与压缩时,一个文件既是文本文件也是二进制文件。
归档文件
磁带归档文件tar
压缩文件

数据类型、空值与编码

数据类型
数字类型数据
希望能用数据进行数学计算,以数字形式进行比较,按数值顺序存储项目

日期和时间
使用DBMS专属的方法来导入与导出日期格式的数据。
使用日期、时间函数对数据进行格式化处理。

字符串
事先声明要使用的字符串长度是多少,或是要使用哪种类型的字符,考虑字符编码。

其他数据类型
集合/枚举、布尔、Blob(二进制大对象)

数据类型间的相互转换
数据损耗:同种类型间的不同范围转换、不同精度间的转换

转换策略
基于数据存储的位置,介绍数据科学清洗过程中比较常见的数据类型转换策略:

  • 基于SQL的操作:

使用各类SQL函数进行类型转换

  • 基于文件的操作:

适用于采用隐式类型结构的文件类型(电子表格和半结构化的JSON数据)
EXCEL
·选择想要修改的单元格,使用ribbon上的下拉菜单进行操作
·使用Format Cells
·istext()、isnumber()与条件格式化特性配合使用(在数据量不多的情况下定位错误数据,或是不正确的输入数据)
·TEXT()函数把数字类型的日期转换成格式为yyyy-mm-dd的字符串类型日期

JSON
大多数情况下使用编程的方式来构建JSON对象。

隐藏在数据森林中的空值
区别对待Oracle
:可测量数字,在数值系统中是有意义的
:在不同的情况下产生不同的含义(询问是什么,告知没有)
空格字符/空白:包括其他不可见字符如制表符、回车、换行符等
null:不等于任何值,甚至不包括其本身(不清楚是否有)

字符编码
使用length()函数和char_length()函数分别获得字节长度和字符长度,以得到多字节格式编码的数据个数。

使用UTF-8编码创建数据库。

处理文件级别的UTF-8编码
(1)过滤UTF-8字符

#可能会损失一些比较有用的数据
for tweet in stream:
	encoded_tweet = tweet['text'].encode('ascii','ignore')
	print counter, "-", encoded_tweet[0:10]
	f.write(encoded_tweet)

(2)以UTF-8字符写入文件
在打开文件的时候使用支持UTF-8的codecs或io库

f = codecs.open('outfile.txt', 'a+', 'utf-8')

在程序顶端引入io库,然后使用它提供的open()函数,在这个函数中传入指定的编码

f = io.open('outfile.txt', 'a+', encoding='utf-8')

(python2.7)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值