Python解决乱码万能方法以及一些个人思路_一蓑烟雨任平生

最新推荐文章于 2024-05-22 20:26:52 发布

一蓑烟雨任平生√

最新推荐文章于 2024-05-22 20:26:52 发布

阅读量863

点赞数 1

分类专栏： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jaeger_Java/article/details/113109091

版权

python 同时被 2 个专栏收录

47 篇文章 4 订阅

订阅专栏

35 篇文章 3 订阅

订阅专栏

文章目录

前言
一、乱码是什么
二、解决方法
总结

前言

最近粉丝在爬取文章时，总遇到乱码，而不知道该如何下手，这里就总结一下应对乱码的方法

一、乱码是什么

乱码，指的是由于本地计算机在用文本编辑器打开源文件时，使用了不相应字符集而造成部分或所有字符无法被阅读的一系列字符。造成其结果的原因是多种多样的。

二、解决方法

1.第一种:

乱码的产生可能是因为

全部搞成utf-8格式，然后忽略别的所有格式格式

具体操作就不写了，请看我的另外一篇文章

编码解码解决

2.第二种：

这里拿猫眼电影来举例

https://maoyan.com/board/4

抓取这个网址

在这里插入图片描述
可以看到这里出现了很多看不懂的乱码

第一步：查看网页编码

思路：

我们可以利用apparent_encoding函数进行查看网页支持的编码格式
然后用encoding查看网页返回给我们的编码格式，进行转换即可
在这里插入图片描述
我们可以看到，这里支持的编码格式是utf-8

而网页返回我们的却是ISO-8859-1

第二步：转换编码

利用encode编码（这里是网页返给我们的编码），然后利用decode解码（我们想要的支持的编码）
在这里插入图片描述
解码成功，其实很简单，了解返回的编码格式，然后找到支持的编码格式，利用解码和编码进行格式转换

总结

文章不算很长，需要自己慢慢体会，今天就到这里啦，下次博客见哈

感觉不错，可以关注下哈

在这里插入图片描述

一蓑烟雨任平生√

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。