解决在python 爬虫时爬取的网页中文乱码问题!

在进行网页爬虫时,时常遇到中文乱码问题,这通常与网页编码有关。通过检查网页charset(如使用document.charset)可确定编码方式。在获取响应后,设置相应编码(如res.encoding='gbk'),能有效解决乱码问题,确保正确解析网页内容。
摘要由CSDN通过智能技术生成

我们平常在爬虫过程中经常会遇到爬取的网页内容乱码的问题,我们知道肯定是编码的问题。一般情况下,网页编码都是UTF-8形式,但是有时候有一些例外,有可能会是GBK的编码方式。
解决中文乱码问题:
一. 查看网页编码
按F12,进入开发者模式,在最上面找到Console,输入document.charset,如图:
在这里插入图片描述
二. 在代码中设置编码方式为步骤一中的方式,例如:

res = requests.get(url)
res.encoding = 'gbk'
html = res.text
  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值