解决python3.6下scrapy中xpath.extract()匹配出来的内容转成json与.csv文件没有编码（unicode）的问题

最新推荐文章于 2023-12-03 15:49:19 发布

wangbowj123

最新推荐文章于 2023-12-03 15:49:19 发布

阅读量2.2k

点赞数 1

分类专栏： Python python爬虫 python3.6写爬虫——从入门到精通文章标签： scrapy编码问题 python3爬虫爬虫框架 scrapy与json.csv

本文链接：https://blog.csdn.net/wangbowj123/article/details/79179739

版权

Python 同时被 3 个专栏收录

59 篇文章 5 订阅

订阅专栏

python3.6写爬虫——从入门到精通

9 篇文章 40 订阅

订阅专栏

python爬虫

7 篇文章 0 订阅

订阅专栏

初学scrapy，利用xpath对网页结构进行匹配，写的parse函数如下：

    def parse(self, response):

        teacherList = response.xpath('//div[@class="li_txt"]')
        teacherItem = []
        for node in teacherList:
            item = ItcastItem()
            name = node.xpath('./h3/text()').extract()
            title = node.xpath('./h4/text()').extract()
            info = node.xpath('./p/text()').extract()
            item['name'] = name[0]
            item['title'] = title[0]
            item['info'] = info[0]

            teacherItem.append(item)

执行

scrapy crawl itcast -o teacher.json

之后发现json文件里的东西是没有编码的数据，查阅相关资料后，发现在settings.py文件中加一句话便可以完美解决问题：

FEED_EXPORT_ENCODING = 'utf-8'

关于转成excel的.csv文件，根据实测utf-8的编码不合适，所以应转成gbk编码格式：

FEED_EXPORT_ENCODING = 'gbk'

wangbowj123

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
解决python3.6下scrapy中xpath.extract()匹配出来的内容转成json与.csv文件没有编码（unicode）的问题

初学scrapy，利用xpath对网页结构进行匹配，写的parse函数如下： def parse(self, response): teacherList = response.xpath('//div[@class="li_txt"]') teacherItem = [] for node in teacherList:
复制链接

扫一扫