Python解决乱码万能方法以及一些个人思路_一蓑烟雨任平生


前言

最近粉丝在爬取文章时,总遇到乱码,而不知道该如何下手,这里就总结一下应对乱码的方法

一、乱码是什么

乱码,指的是由于本地计算机在用文本编辑器打开源文件时,使用了不相应字符集而造成部分或所有字符无法被阅读的一系列字符。造成其结果的原因是多种多样的。

二、解决方法

1.第一种:

乱码的产生可能是因为

全部搞成utf-8格式,然后忽略别的所有格式格式

具体操作就不写了,请看我的另外一篇文章

编码解码解决

2.第二种:

这里拿猫眼电影来举例

https://maoyan.com/board/4

抓取这个网址

在这里插入图片描述
可以看到这里出现了很多看不懂的乱码

第一步:查看网页编码

思路:

我们可以利用apparent_encoding函数进行查看网页支持的编码格式
然后用encoding查看网页返回给我们的编码格式,进行转换即可
在这里插入图片描述
我们可以看到,这里支持的编码格式是utf-8

而网页返回我们的却是ISO-8859-1

第二步:转换编码

利用encode编码(这里是网页返给我们的编码),然后利用decode解码(我们想要的支持的编码)
在这里插入图片描述
解码成功,其实很简单,了解返回的编码格式,然后找到支持的编码格式,利用解码 和 编码 进行格式转换

总结

文章不算很长,需要自己慢慢体会,今天就到这里啦,下次博客见哈

感觉不错,可以关注下哈

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值