前言
最近粉丝在爬取文章时,总遇到乱码,而不知道该如何下手,这里就总结一下应对乱码的方法
一、乱码是什么
乱码,指的是由于本地计算机在用文本编辑器打开源文件时,使用了不相应字符集而造成部分或所有字符无法被阅读的一系列字符。造成其结果的原因是多种多样的。
二、解决方法
1.第一种:
乱码的产生可能是因为
全部搞成utf-8格式,然后忽略别的所有格式格式
具体操作就不写了,请看我的另外一篇文章
2.第二种:
这里拿猫眼电影来举例
https://maoyan.com/board/4
抓取这个网址
可以看到这里出现了很多看不懂的乱码
第一步:查看网页编码
思路:
我们可以利用apparent_encoding函数进行查看网页支持的编码格式
然后用encoding查看网页返回给我们的编码格式,进行转换即可
我们可以看到,这里支持的编码格式是utf-8
而网页返回我们的却是ISO-8859-1
第二步:转换编码
利用encode编码(这里是网页返给我们的编码),然后利用decode解码(我们想要的支持的编码)
解码成功,其实很简单,了解返回的编码格式,然后找到支持的编码格式,利用解码 和 编码 进行格式转换
总结
文章不算很长,需要自己慢慢体会,今天就到这里啦,下次博客见哈
感觉不错,可以关注下哈