scrapy 抓取的中文结果乱码，请问如何解决？

最新推荐文章于 2024-07-04 19:54:24 发布

「已注销」

最新推荐文章于 2024-07-04 19:54:24 发布

阅读量5.5k

点赞数 2

分类专栏： Scrapy 文章标签： shell 乱码编码 unicode

本文链接：https://blog.csdn.net/jueyings/article/details/76170081

版权

Scrapy 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这里写图片描述

这个官网给出解释以及解决办法了：
在setting文件中设置：FEED_EXPORT_ENCODING = ‘utf-8’ 就可以啦

或者使用：
首先Unicode不是乱码，如果把这些数据保存下来，或者直接显示使用是没有问题的。
另外，如果你需要在scrapy shell中调试hxs的时候，你可以自定义一个printhxs(hxs)这样的函数用来在shell中显示中文。

def printhxs(hxs):
    for i in hxs:
        print i.encode('utf-8')

这样当你使用 hxs.select(‘\Xpath’) 时可以这样显示中文内容

echoChinese = hxs.select('\\Xpath\text()').extract()
printhxs(echoChinese)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python2 爬虫（九） -- Scrapy & BeautifulSoup之再爬CSDN博文

指尖飞舞

06-02

1万+

序我的Python3爬虫（五）博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务。链接：Python3 爬虫（五） -- 单线程爬取我的CSDN全部博文上一篇Python3 爬虫（八） -- BeautifulSoup之再次爬取CSDN博文，我们就利用BeautifulSoup4重新实现了一次爬取csdn博文的任务。那么，既然认识了Scrapy和

python3 爬虫抓取网页出现乱码问题解决方法

qq_33440662的博客

09-20

5785

python抓取网页并写到本地文件中，出现乱码问题的关键有两处：抓取网页数据后是否正确解码正确解码后的html字符串写入文件时是否正确编码要解决这两个问题，首先要知道该网页是如何编码的，先看看下面代码： import requests head = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) Firefox/21.0"...

参与评论您还未登录，请先登录后发表或查看评论

Python:Scrapy中出现的乱码问题

02-20

859

1、在进行scrapy中，有时候会出现[‘u\85f6\88fd\’]……等情况。 2、可以使用将extract()写在遍历之前。

shell脚本中文乱码

最新发布

zhaoYuanJun_nb的博客

07-04

599

要解决在Xshell中粘贴中文乱码的问题，首先需要确定乱码的原因。通常，这可能与终端的字符编码设置、Xshell的配置或者远程Linux服务器的locale设置有关。以下是一个简单的bash脚本，该脚本尝试设置Linux系统的locale为支持中文的编码（如。），但请注意，这个脚本可能并不能直接解决所有情况下的乱码问题，因为乱码的原因可能多种多样。

requests scrapy 爬虫的url带中文解决

weixin_43671478的博客

05-24

1742

import string from urllib.parse import quote # 将url中带的中文进行转码，而特殊符号不变 src = quote(src, safe=string.printable) img = urlopen(src).read() 例如：link = 'http://jingkids.com/wp-content/uploads/2018/10/平和青浦...

Python Scrapy爬虫中文乱码问题“鎴愬姛”及用chardet解决乱码问题

liu_xzhen的博客

02-25

3725

在爬取某个网站时，爬取第一个页面能正常获取，爬取第二个页面，获取文章内容时，返回的数据为中文乱码，乱码如下: {"rptCode":200,"msg":"鎴愬姛","data":{"docId":989402,"docTitle":"閾惰淇濋櫓鏈烘瀯鎭㈠鍜屽缃鍒掑疄鏂芥殏琛屽姙娉�"} 尝试解决：查找办法让在setting.py文件中添加设置编码格式的代码： FEED_EXPORT_ENCODING = 'utf-8' 添加后依旧不可以。使用其他的格式编码： repons

scrapyd界面中文显示乱码问题优化

weixin_42603784的博客

10-29

795

scrapyd界面中文字符显示时诸如下面图片这样显示乱码不利于我们查看日志且没有很好的可读性,下面我来优化下scrapyd对中文字符显示我的scrapyd部署环境是基于docker容器的,所以我展示的优化环境是基于linux下的 (1)首先我们要通过命令查看一下我们scrapyd包的安装位置,我们包的位置就是图中Location显示路径 pip3 show scrapyd (2)接下来我们进入该路径下寻找我们要改的scrapyd的配置文件,进入目录后我们要修改的文件就是website.py了 cd

Python scrapy爬取京东，百度百科出现乱码，解决方案

Mr_Zhen的博客

05-14

787

Python scrapy爬取京东百度百科出现乱码解决方案十分想念顺店杂可。。。抓取百度百科，出现乱码把页面源码下载下来之后，发现全是乱码，浏览器打开但是浏览器链接打开就没有乱码以下是浏览器里面的源码到这一步说明我们下载网页...

Scrapy依赖包.zip

12-31

Scrapy是一个强大的Python爬虫框架，它为网络数据抓取提供了高效、灵活的解决方案。Scrapy的高效运行离不开一系列依赖包的支持，这些依赖包在"Scrapy的依赖包.zip"中有所体现。以下是对这些依赖包及其作用的详细说明...

Scrapy存储json

Aunean's Blog

09-18

529

Scrapy存储json 1.使用终端指令行方式指令：scrapy crawl xxx -o filePath.文件类型 -s FEED_EXPORT_ENCODING=utf-8 -s FEED_EXPORT_ENCODING=utf-8 解决中文乱码 注意：持久化存储对应的文本文件类型只可以为 ‘json’, ‘jsonlines’, ‘jl’, ‘csv’, ‘xml’, ‘marshal’, ‘pickle’ 类型 2.直接创建并写入 json 文件 import os import cod

基于scrapy框架的爬虫详细步骤（含没有“下一页”按钮的href抓取）

Slim's Hello World

07-19

4957

脱离八爪鱼，最近两天用scrapy爬了一个商品网站，本来可以快很多的，其中有一天把时间花在一行代码上最后绕了一大圈改了个参数就解决了？？希望大家少走点弯路。很多都是对慕课网的一个总结，网址：https://www.imooc.com/video/17519 讲得非常好！比较敏感所以用课程的代码例子了。第一次写，难免不专业多多指教。 1.新建项目第一步先安装，可以按照视频上安装，略。例子中...

Scrapy框架中设置编码格式

dayun555的博客

03-01

5820

utf-8:全球通用编码ascii:能存储字母/数字/符号,美国专用gbk|gb2312|gb18030:能够存储汉字要生成经编码后的csv类型文件cmdline.execute(['scrapy', 'crawl', '爬虫文件名称', '-o', '文件名.csv', '-s', 'FEED_EXPORT_ENCODING="gb18030"'])例如：cmdline.execute(['sc...

scrapy输出中文字符到文件

WALNUT的博客

07-06

2366

利用scrapy crawl命令执行爬虫时，数据输出到文件时会保存原始的编码，比如中文会保存为\uXXXX格式。如果想保存中文字符串，需要在添加参数：-s FEED_EXPORT_ENCODING=utf-8 scrapy crawl spridername -o items.json -s FEED_EXPORT_ENCODING=utf-8

scrapy Unicode 编码转 gbk或者其他

bingo_boy的专栏

12-03

1780

我抓出来也是uUnicode 形式的，我转码是用piplines这个 def __init__(self): self.file = codecs.open('items.json', 'w', encoding='utf-8') def process_item(self, item, spider): line = json.dumps(dict(item)) + "\

scrapy 编码问题.

weixin_44858471的博客

10-20

850

scrapy编码问题. 使用scrapy进行网站爬取,有时候中文字符会变成unicode字符串,类似 "\u70df\u53f0\u7ea2\u5bcc\u58eb80mm\u4ee5\u4e0a" 解决方法如果用最新版scrapy(version>=1.2)在运行爬虫的时候加上参数-s FEED_EXPORT_ENCODING=utf-8,即最终命令是: scrapy crawl your_spider -o result.json -s FEED_EXPORT_ENCODING..

scrapy编码问题

Tony_maya的博客

03-02

275

UnicodeEncodeError: 'ascii’编解码器无法对位置15-18的字符进行编码:序号不在范围内(128) print(‘小分类信息：{}’.format(s_category_info)这句出错解决方法：print(‘小分类信息：{}’.format(s_category_info.encode(“utf-8”))) ...

scrapy编码问题--终极版

天空晴朗☀心情很蓝

09-13

1037

爬虫遇到编码不对的情况是家常便饭，普通情况我就不一一说明了，一般常用 .encode('utf-8') .decode('utf-8') 编码-解码两个方法，多试几次总能解决。当遇上一种情况，不管怎么调都无法转换正常编码的情况下，是由于在请求时需要直接对 response 进行编码转换。即对应 requests 的 r = requests(url) r.encoding = '...

Scrapy保存中文字符到json文件时编码设置

Scofield971031的博客

03-21

1945

最近在根据(http://www.runoob.com/w3cnote/scrapy-detail.html)学习Scrapy时，遇到一个问题：使用scrapy crawl执行爬虫程序并导入一个json文件，此时可以看到，命令行窗口显示的保存内容是中文，但在打开导出的json文件时，其内容却显示为以\u开头的Unicode编码：之后查询相关资料后，发现有两个解决方法：执行爬虫命令时，加...

scrapy 非标准html处理,处理 Scrapy 中网页编码问题

weixin_42290401的博客

06-19

788

最近接手了一个全网爬虫的工作项，基于 Python 2.7 ，用到了 Scrapy 框架，同时也用了 newspaper 这个库(github 地址)来做基于标签密度的正文内容提取。鉴于之前一直运行良好，所以我也没有太在意这一块。后面事业部那边说最近发现好几个网站的网页都出现了中文乱码，让我处理一下这个问题。末了我也顺手把处理的经过记录一下，分享一下经验。问题定位正文解析的爬虫里，用到了在 new...

Unable to create process using 'E:\python\python.exe -m scrapy': ???????????

11-19

以下是一些可能的解决方案： 1.检查Python解释器路径是否正确。可以在命令行中输入“python”来测试Python解释器是否能够正常启动。如果无法启动，请检查Python解释器路径是否正确。 2.检查Python解释器版本是否与...