关于windows-1252页面乱码问题

最新推荐文章于 2023-01-07 21:52:20 发布

椰子是只猫

最新推荐文章于 2023-01-07 21:52:20 发布

阅读量6.1k

点赞数 1

分类专栏：异常解决

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/agony_sun/article/details/79217475

版权

异常解决专栏收录该内容

14 篇文章 0 订阅

订阅专栏

今天爬虫运行的时候，发现保存下来的HTML页面偶尔有乱码，访问页面发现页面的字符编码是gb2312，而我用Cpdetector编码识别后的结果是windows-1252，所以下载的时候按照windows-1252去下载便会出现乱码的情况。

百度了一下发现：国人们往往将gb2312与gbk编码等同，某些已经使用了gbk编码里的字符的，仍然声称内容为gb2312编码。而某些编码识别类对gb2312编码严格遵循gb2312字符集范围，当探测到超出这一范围的字符，便将编码回退到windows-1252。

神奇，于是乎便在下载的时候加了个判断，如果识别字符编码为windows-1252则将其默认转换成gb2312。问题解决~！

椰子是只猫

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。