因为各种原因,需要建立一个法律大全的库,方便做匹配等。重新拿起了python,发现忘的差不多了。
网上找了一下,这是一个大佬做的一个最简单的爬虫,http://www.cnblogs.com/fnng/p/3576154.html,爬取图片的。
于是,学习了之后,自己做了一个爬虫,由于这个是基于2.7版本的,只用了urllib的库,中文的问题啊,真是烦人。所幸经过两天大量的百度,解决了这些乱七八糟的问题。走过的弯路如下,警醒自己。
一.字符串常用操作.
#list转换成字符串
list = "".join(list)
#字符串去除左边空格
str = str.lstrip()
#同理,右边空格rstrip,空格strip
#去除对应字符
str = str.slip("不要我了")
二.中文问题与编码格式问题
由来已久,python2.7最大的问题。
1.string的问题
string在python2.7中默认为ascii的格式,可以通过导入sys来转换成utf-8
#在前面插入这三行代码
import sys
reload(sys)
sys.setdefaultencoding('utf8')
2.在链接或者其他匹配的东西中,请在前面加上u,或者在后面加上.encode("xxx").统一转换成unicode格式,进行操作,不然会出现很多奇奇怪怪的错误
#字符串转换