最近Python处理数据的一些心得（一）

最新推荐文章于 2023-06-09 09:19:07 发布

weixin_34120274

最新推荐文章于 2023-06-09 09:19:07 发布

阅读量157

点赞数

文章标签： python

原文链接：https://my.oschina.net/moonrain/blog/540467

版权

2019独角兽企业重金招聘Python工程师标准>>>

坑一：

Python的字符编码一直是个大问题，特别是做中文的数据处理的时候经常匹配不上，为了能让编码尽量少出花样，我还特意连系统都刷了，刷成了英文版的win8，可是编码依然没有很听话。后来还是群里的一位大神轻描淡写的一句话，开头要用GB2312...

详细的说，就是之前写习惯了，每段程序开始之前习惯了写这个东西：

# -*- coding: utf-8 -*-

曾经一直以为UTF-8是最包罗万象的编码，没有之一，但是这次就被坑了，因为数据内容全是在网站上爬下来的数据，基本除了数字全是中文，所以，还是用GB2312好一点儿。就是说，开头这样写：

# -*- coding: gb2312 -*-

坑二：

我也不知道怎么处理的，两行数据处理以后变成了三行数据，而且第三行数据跟第二行数据还差不太多，这个问题真是愁死我了。后来，在邱神的指导下，输出了一下三行数据，发现第三行居然是个逗号，可是为什么原来第三行只有个逗号，处理后却又数据内容呢？因为我是用循环做的，先是读入了个字符串line，然后匹配line字符串，匹配出来的字符串分别命名成其他的东西。结果虽然第三行读入的只是个逗号，但是其他字符串是有内容的，有些恰好可以匹配上，所以就出现了这种情况。因为要处理的字符串肯定很长，所以干错设定，当line长度大于10时才开始处理，后来想想不放心，万一有十个逗号呢，所以改成在处理完一次循环以后，对所有的中间变量字符串进行格式化，清理它们的内容，然后就没问题了

这个例子告诉我们，程序员要养成及时扔垃圾的习惯，只有这样才能重视析构的作用，呵呵哒了...

坑三

转载于:https://my.oschina.net/moonrain/blog/540467

weixin_34120274

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。