爬虫乱码的解决办法

最新推荐文章于 2024-08-08 17:59:21 发布

free丿love

最新推荐文章于 2024-08-08 17:59:21 发布

阅读量4.2k

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013828950/article/details/50449090

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

写爬虫时肯定是要去考虑乱码的问题，刚开始自己没怎么有思路，最后看了亮哥解决乱码的博客。才明白，主要一下几点：

1：解析服务端返回的header中content-type. 得到编码，改编码是什么就按照什么去解析返回的字节流。

2：如果服务端header中没有content-typｅ信息，就按照 utf-8 解析返回的内容。再去解析meta标签得到编码，并作为最终的解析服务端返回字节流的编码。(因为按照gbk 或者 utf-8 还是其他的编码解析charset=utf-8 的结果都是一样的,因为它们都兼容ascii编码，也就是前2个字节的码表都一样)
3:如果标签meta中也没有编码的话，那么可以尝试着去得到 en ,zh-CN ,zh. 然后用相应的编码解析返回的内容。
4：如果上面条件1，2，3都不满足的话，可以通过智能探测，如cpdetector，它是目前口碑最好的java实现的智能探测编码，是基于统计实现的，所以注定会有一定的错误率，有些特殊网页，它确实是不准确的，如网页的meta中charset和实际的浏览器识别的正常显示的charset不相同的情况，它的识别也是错误的。所以这种办法会有误判的的情况。并不是太好。不过经过前面的３部也基本能得到编码类型了。
５：还有一种情况就是国内的网页写的很不规范，比如实际类型是ut-8 ,但是写成charset=gbk….。这种情况也要考虑。目前想到的解决办法是，。。。不知道怎么做，明天问下亮哥。。。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。