《Python网络爬虫从入门到实践 第2版》第10章 解决中文乱码

第10章 解决中文乱码

如果你经常使用Python编程,或者在前面的章节中已经多次使用Python练习网络爬虫技术,就不可避免地会遇到中文乱码的问题。中文乱码问题经常难以解决,或者治标不治本,本章就来解决这一难题。

本章主要介绍什么是字符编码、Python的字符编码是什么以及如何解决Python中文乱码的问题。

目录

第10章 解决中文乱码

10.1 什么是字符编码

10.2 Python的字符编码

10.3 解决中文编码问题

10.3.1 问题1:获取网站的中文显示乱码

10.3.2 问题2:非法字符抛出异常

10.3.3 问题3:网页使用gzip压缩

10.3.4 问题4:读写文件的中文乱码

10.4 总结


10.1 什么是字符编码

如果你已经使用Python编程了一段时间,就会发现Python的字符编码真是一件令人头痛的事情。

特别是当程序在运行的时候,突然冒出一个错误:

ValueError:Expected a bytes object,not a unicode object

或者在使用print打印结果的时候,突然冒出一个错误:

UnicodeDecodeError:'cp950'codec can't decode byte 0x96 in position 10:illegal multibyte sequence

这时,你可能马上使用百度或谷歌搜索解决方法,但是根据网上的方法即使解决了错误,但是很可能不知道为什么这个方法能够解决这个错误。这也是笔者之前经常遇到的问题,接下来就为读者介绍这些错误为什么发生,并提供解决方案,让你不再有此烦恼。

首先,从字符串编码说起,无论是Python 2还是Python 3

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值