当爬取网页内容为乱码时,解决办法

最新推荐文章于 2024-08-08 17:59:21 发布

Lian__Rui

最新推荐文章于 2024-08-08 17:59:21 发布

阅读量1.1k

点赞数 4

分类专栏：爬虫文章标签：爬虫乱码

本文链接：https://blog.csdn.net/Lian__Rui/article/details/110088187

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文详细介绍了如何在爬虫遇到乱码响应时，使用requests库的r.apparent_encoding属性准确识别并转换编码，确保网页内容正常显示。通过实例演示了https://www.dxsbb.com/news/44368.html的抓取过程。

摘要由CSDN通过智能技术生成

当爬取网页内容为乱码时,解决办法

r.apparent_encoding 从内容中分析响应内容的编码方式

encoding和apparent_encoding的区别

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3MKvM3R0-1606209744999)(en-resource://database/1188:0)]

r.encoding：如果header中不存在charset，则认为编码为ISO-8859-1
r.apparent_encoding:根据网页内容分析出的编码方式
r.apparent_encoding比r.encoding更为准确

如爬取 https://www.dxsbb.com/news/44368.html

import requests

url = 'https://www.dxsbb.com/news/44368.html'
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36",
    "cookie": "Hm_lvt_0fde2fa52b98e38f3c994a6100b45558=1605139839,1605441318,1605521212,1606205900; Hm_lpvt_0fde2fa52b98e38f3c994a6100b45558=1606205905; ASPSESSIONIDCGQRRTAQ=PCKBDNECHGHNJPBGINBIINKP"
}
r = requests.get(url, headers=headers)
r.encoding = 'utf-8'
print(r.text)

content = r.content
# print(content)
print(content.decode('ISO-8859-1'))

爬取结果：
在这里插入图片描述

是乱码的

解决办法：

import requests

url = 'https://www.dxsbb.com/news/44368.html'
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36",
    "cookie": "Hm_lvt_0fde2fa52b98e38f3c994a6100b45558=1605139839,1605441318,1605521212,1606205900; Hm_lpvt_0fde2fa52b98e38f3c994a6100b45558=1606205905; ASPSESSIONIDCGQRRTAQ=PCKBDNECHGHNJPBGINBIINKP"
}
r = requests.get(url, headers=headers)
r.encoding = r.apparent_encoding
print(r.text)