使用Scrapy抓取中文时,输出一般是unicode,要输出中文也只需要稍作改动。
两种情况:
单纯交互输出
如代码:
title = sel.xpath('a/text()').extract()
print title
此时输出的是title对应中文的unicode格式,只需要指定“utf-8”编码即可输出中文,如下:
title = sel.xpath('a/text()').extract()
for t in title:
print t.encode('utf-8')
这里需要注意的是“encode()”函数是字符串专有的,而title是一个列表,因此需要对title中的每一个执行该操作。
存储
存储中文数据可以利用pipeline实现
1.定义pipeline
# -*- coding: