python 解决网页文本乱码

python3 解决网页文本乱码

python解决网页乱码,网页乱码有几种:
1.编码的问题如:utf-8, iso, gbk 等等,这些你可以使用python的chardet包去检验它是哪种编码,从而匹配相应的编码格式,就能解决。
2.非编码问题:最近的碰到的,scrapy抓下来的网页,无论怎么匹配编码格式都不正确,chardet结果为None,
这种情况多半是因为,服务器传过来的网页文本是经过压缩的,针对这种情况我提供两种解决办法:
1.使用 python的zilb进行解压,相应的方法去网上找。
2.‘accept-encoding’: ‘gzip, deflate, br’,将请求头里的这个注释掉,accept-encoding是告诉服务器:可以接受怎样的文本格式。因为平时你看到的网页,实际上是浏览器自动解压生成的,在不影响结果的前提下,如果不追求效率、多写方法,把这个弄掉就可以了。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笑笑布丁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值