Scrapy研究探索（四）——中文输出与中文保存

最新推荐文章于 2017-02-09 17:25:59 发布

lyy14011305

最新推荐文章于 2017-02-09 17:25:59 发布

阅读量323

点赞数

分类专栏： Scrapy Python爬虫

Scrapy 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

Python爬虫

6 篇文章 0 订阅

订阅专栏

提取网页中中文并输出或者是保存时经常会出现一个问题是显示的是中文对应的unicode编码而非中文本身，这里讲述解决这种问题的方法。

一. 针对交互输出。

如以下代码：

[python]view plaincopy 
   
 title = site.xpath('a/text()').extract()  
 link = site.xpath('a/@href').extract()  
 desc = site.xpath('a/@title').extract()  

[python]view plaincopy 
   
 print title  

此时title的输出可能是类似于如下：

[python]view plaincopy 
   
 \xe4\xbd\xbf\xe7\x94\xa8  

这是title对应中文的unicode格式。

将其转换为utf-8在输出即可：

[python]view plaincopy 
   
 title = site.xpath('a/text()').extract()  
 link = site.xpath('a/@href').extract()  
 desc = site.xpath('a/@title').extract()  
   
 print title  
 for t in title:  
     print t.encode('utf-8')  

这时两次输出的前一次为unicode码，而后一次为中文。

注意：

encode()只针对str数据结构，如果不是，可以先转换为str。上面由于得到的title为list类型，所以转换如上。

二. 针对存储。

关于存储，可查看在教程（二）中在w3school和pipelines中使用的方式达到保存中文的效果。

原文链接：http://blog.csdn.net/u012150179/article/details/34450547

lyy14011305

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy研究探索（四）——中文输出与中文保存

提取网页中中文并输出或者是保存时经常会出现一个问题是显示的是中文对应的unicode编码而非中文本身，这里讲述解决这种问题的方法。一. 针对交互输出。如以下代码：[python] view plain copy title = site.xpath('a/text()').extract() link = site.
复制链接

扫一扫

专栏目录