【Python爬虫】解决中文乱码

最新推荐文章于 2024-08-06 16:45:11 发布

镰刀韭菜

最新推荐文章于 2024-08-06 16:45:11 发布

阅读量1.3k

点赞数

分类专栏：深度学习与机器学习文章标签： Python 网络爬虫中文编码 Unicode UTF-8

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ARPOSPF/article/details/95536418

版权

深度学习与机器学习专栏收录该内容

102 篇文章 58 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Python中处理中文乱码的问题，包括字符编码的原理，Python的Unicode和bytes字符串，以及在网络爬虫中遇到的四种常见中文乱码问题及其解决方案。重点关注了解析网页内容、字符串解码、gzip压缩的处理以及文件读写时的编码设置。

摘要由CSDN通过智能技术生成

解决中文乱码

1.什么是字符编码？

从字符编码说起，无论是Python2还是Python3，总体上说，字符串的编码都只有两大类：

通用的Unicode编码
将Unicode转化成的某种类型的编码，如UTF-8,GBK等

Unicode被称为统一码、万国码或单一码。也就是说，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，大概包含100多万个符号。

Uicode和ASCII的区别是什么？Unicode编码通常是两个字节，而ASCII是一个字节。但是用Unicode编码写英文时每个符号用两个字节，因此要将其中一个字节全部用0表示。浪费了存储空间。因此开发了一些中间格式的字符集，被称为通用转换格式（Unicode Transformation Format (UTF))，常见的有UTF-8和UTF-16。

UTF-8最大的一个特点是长度可变，它可以使用1~4个字节表示一个符号，英文字母通常被编为1个字节，汉字通常被编为3个字节。

对于UTF-8编码，怎么知道什么时候是1个字节，什么时候是3个字节呢？有两条规则：

对于单字节的符号，字节的第1位设为0，后面7位为这个符号的Unicode码。因此对于英文字母，UTF-8编码和ASCII编码是相同

了解本专栏

超级会员免费看

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

镰刀韭菜 看在我不断努力的份上，支持我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。