爬虫时的乱码问题解决

最新推荐文章于 2024-08-08 17:59:21 发布

甘霖那

最新推荐文章于 2024-08-08 17:59:21 发布

阅读量283

点赞数

文章标签： python 爬虫乱码

本文链接：https://blog.csdn.net/qq_46006468/article/details/118902766

版权

有乱码存在的代码：


from bs4 import BeautifulSoup
import requests

url = "http://www.weather.com.cn/weather/101040100.shtml"
header = ("User-Agent",
          "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")

r = requests.get(url, timeout=20)
# r.encoding='utf-8'
content = r.text.encode("ISO-8859-1")  # 就是网页的编码方式，按照上方方法的输出填写就可以
soup = BeautifulSoup(r.text, 'lxml')
print(soup)

乱码：

解决方法就是在代码开头加上：

# -*- coding: utf-8 -*-

加上后如果还是乱码的话，可以检查一下解码的方式：

print(r.encoding)

将这个输出结果复制到r.rtext.encode后边

若依然是乱码：可以尝试另外一种解码方式：

r=requests.get(url,timeout=20)
r.encoding='utf-8'
soup = BeautifulSoup(r.text, 'lxml')

结果如图：

已经没有乱码了，已经解决该问题

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

甘霖那

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬虫中乱码的问题

folnor的博客

10-15

2万+

python3中依旧会出现一些爬虫乱码 # -*- coding: utf-8 -*- 使用上述的不能解决问题例如访问百度首页，用python自带的idel，返回text时会出现ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é 如果此时用sublime运行该代码，会报错UnicodeEncodeError: 'gbk' codec can't encode char

解决Python网页爬虫之中文乱码问题

01-20

最近在学习网页爬虫时就遇到了这样一种问题，中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道，之前爬取的一个学校网页就出现了这个问题，但是当时并没有解决，这着实成了我一个心病。这不，...

参与评论您还未登录，请先登录后发表或查看评论

盘点3种Python网络爬虫过程中的中文乱码的处理方法

i54996的博客

10-13

2468

这里再次给大家祭出网络爬虫过程中三种中文乱码的处理方案，希望对大家的学习有所帮助。前言前几天有个粉丝在问了一道关于使用Python网络爬虫过程中中文乱码的问题，如下图所示。看上去确实头大，对于爬虫初学者来说，这个乱码摆在自己面前，犹如拦路虎一般难顶。不过别慌，小编在这里给大家整理了三种方法，专门用于针对中文乱码的，希望大家在后面再次遇到中文乱码的问题，在此处可以得到灵感！一、思路其实解决问题的关键点就是在于一点，就是将乱码的部分进行处理，而处理的方案主...

3种Python爬虫中文乱码的处理方法

最新发布

Python_00001的博客

08-08

1253

Python爬虫在抓取网页数据时，经常会遇到中文乱码问题。这通常是因为网页的编码格式与Python处理时使用的编码格式不一致导致的。以下是三种常见的处理中文乱码的方法，并附上相应的代码示例。

Python爬虫中文乱码问题

学习一定要有针对性的练习-实操！

02-07

1422

我们在爬虫输出内容时，常常会遇到中文乱码情况（以如下网址为例）。 https://chengdu.chashebao.com/yanglao/19077.html 在输出内容时，出现如下图的情况：解决爬虫中文乱码的步骤网址编码为gbk 查看网页源代码的head部分的编码：<meta http-equiv="Content-Type" content="text/html; charset=gb2312">，发现网页编码为gbk类型利用requests库的方法查看默认输出的编码

Python：爬虫乱码

weixin_45068714的博客

10-14

2835

在所有的编解码方式中，ASCII码字符对应的二进制表示都是一样的。编、解码要相对应，才能不损失数据原本的意义，我们才不会误解数据；数据以编码方式1进行编码的到字节流，那么这段字节流必须以对应的解码方式1进行解码，才可以得到原始的数据；否则这段字节流可能会：1、解码成别的数据（按照解码方式2，这一段二进制位对应了别的字符）；2、解码失败（按照解码方式2，这一段二进制位可能不对应任何字符）。

爬虫中遇到中文乱码解决方法

weixin_42156283的博客

12-02

394

1.requests 设置响应的编码 response.encoding = response.apparent_encoding 2.scrapy 中间件中添加如下代码 def process_response(self, request, response, spider): response = HtmlResponse( url=response.url, body=response.body, encoding='GB2312' )

Python网络爬虫出现乱码问题的解决方法

12-24

Python网络爬虫在抓取网页数据时，可能会遇到各种乱码问题，这主要源于源网页的编码和爬虫程序处理编码之间存在不匹配。解决乱码的关键在于正确地识别和处理网页的编码。首先，我们需要了解乱码产生的原因。源网页...

nodejs爬虫抓取数据乱码问题总结

10-24

上述提到的`varDMap`对象，尽管它可能是由于OCR扫描技术导致识别错误或漏识别，并不直接影响爬虫乱码问题的解决，但其结构示例可能暗示需要对某些编码进行特定的转换，这在处理复杂编码或特定网页数据时可能是一种...

【python爬虫】遇到中文乱码了怎么办？看看这篇文章能不能教会你

bagell的博客

09-13

1395

看上去确实头大，对于爬虫初学者来说，这个乱码摆在自己面前，犹如拦路虎一般难顶。不过别慌，快快在这里给大家整理了三种方法，专门用于针对中文乱码的，希望大家在后面再次遇到中文乱码的问题，在此处可以得到灵感！针对Python网络爬虫过程中的中文乱码问题，给出了3种乱码解决方法，虽然文中例举了3种方法，但是快快相信肯定还有其他的方法的，也欢迎大家在评论区谏言。如果你需要学习交流的资料，这个链接有免费的课程可能对你有些帮助哦~点击这里跳转哦~

python中——requests爬虫【中文乱码】的3种解决方法

热门推荐

2301_82000445的博客

01-25

1万+

👉Python学习路线汇总👈Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（学习教程文末领取哈）👉Python必备开发工具👈。

爬虫异常: 采集到的内容乱码

tonghua1124的博客

04-03

919

【代码】爬虫异常: 采集到的内容乱码。

爬虫处理乱码问题

写代码是兴趣，看美美是爱好

08-07

223

我们在网站上，爬取资料的时候不免会出现乱码问题，怎么解决呢？编码，实际却用的是encoding编码。的编码方式不一样造成的，本来应该用。问题解决hhhhhhhhh。看看美女，爽一爽，劳逸结合。

爬虫解析出来的网页中文部分都是乱码（运用的模块requests, BeautifulSoup）

weixin_41586246的博客

03-21

3030

编码问题起因：解析出来的网页中文部分都是乱码（运用的模块requests, BeautifulSoup）原因：requests出现编码问题（可能）解决办法：html = requests.get(url, headers = header).text改为html = requests.get(url, headers = header).content...

盘点3种Python爬虫中文乱码的处理方法

qq_41314882的博客

11-22

2443

本文针对Python网络爬虫过程中的中文乱码问题，给出了3种乱码解决方法，顺利解决了问题。你还知道有哪些乱码的情况和处理方法，欢迎在评论区中留言。感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料等具体看下方。一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记。

避免写爬虫时出现乱码

行路者

02-06

526

def get_page_content(url): url_content = urllib.urlopen(url).read() char_det = chardet.detect(url_content) get_encoding_charset = char_det['encoding'] if get_encoding_charset=='utf-8' or get_

Python网络爬虫实践：BeautifulSoup解决乱码问题

2. 中文乱码问题：在抓取网页时，中文字符可能会乱码，解决方法是使用 BeautifulSoup 解析网页。BeautifulSoup 是 Python 中的一个 HTML 和 XML 解析库，可以自动地检测网页的编码方式。三、BeautifulSoup 解析...