最近Python处理数据的一些心得(一)

坑一:

        Python的字符编码一直是个大问题,特别是做中文的数据处理的时候经常匹配不上,为了能让编码尽量少出花样,我还特意连系统都刷了,刷成了英文版的win8,可是编码依然没有很听话。后来还是群里的一位大神轻描淡写的一句话,开头要用GB2312...

        详细的说,就是之前写习惯了,每段程序开始之前习惯了写这个东西:

# -*- coding: utf-8 -*-

        曾经一直以为UTF-8是最包罗万象的编码,没有之一,但是这次就被坑了,因为数据内容全是在网站上爬下来的数据,基本除了数字全是中文,所以,还是用GB2312好一点儿。就是说,开头这样写:

# -*- coding: gb2312 -*-

坑二:

        我也不知道怎么处理的,两行数据处理以后变成了三行数据,而且第三行数据跟第二行数据还差不太多,这个问题真是愁死我了。后来,在邱神的指导下,输出了一下三行数据,发现第三行居然是个逗号,可是为什么原来第三行只有个逗号,处理后却又数据内容呢?因为我是用循环做的,先是读入了个字符串line,然后匹配line字符串,匹配出来的字符串分别命名成其他的东西。结果虽然第三行读入的只是个逗号,但是其他字符串是有内容的,有些恰好可以匹配上,所以就出现了这种情况。因为要处理的字符串肯定很长,所以干错设定,当line长度大于10时才开始处理,后来想想不放心,万一有十个逗号呢,所以改成在处理完一次循环以后,对所有的中间变量字符串进行格式化,清理它们的内容,然后就没问题了

        这个例子告诉我们,程序员要养成及时扔垃圾的习惯,只有这样才能重视析构的作用,呵呵哒了...

坑三

转载于:https://my.oschina.net/moonrain/blog/540467

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值