Python3.6中对爬取网页中的"/XBB"的处理

最新推荐文章于 2023-07-04 10:24:24 发布

奔跑的怪兽

最新推荐文章于 2023-07-04 10:24:24 发布

阅读量910

点赞数

分类专栏：网络爬虫文章标签：网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013550998/article/details/81149580

版权

在爬取百度首页时报错：

UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xbb’ in position 28613: illegal multibyte sequence
这里写图片描述
虽然不影响爬取的内容，但是很好奇地查了一下，是字符编码BOM的锅。BOM（Byte Order Mark），字节顺序标记，出现在文本文件头部，Unicode编码标准中用于标识文件是采用哪种格式的编码。

字符编码

1.1. ASCII

ASCII(American Standard Code for Information Interchange)，是一种单字节的编码。计算机世界里一开始只有英文，而单字节可以表示256个不同的字符，可以表示所有的英文字符和许多的控制符号。不过ASCII只用到了其中的一半（\x80以下），这也是MBCS得以实现的基础。

1.2. MBCS

然而计算机世界里很快就有了其他语言，单字节的ASCII已无法满足需求。后来每个语言就制定了一套自己的编码，由于单字节能表示的字符太少，而且同时也需要与ASCII编码保

最低0.47元/天解锁文章

奔跑的怪兽

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python3.6中对爬取网页中的"/XBB"的处理

在爬取百度首页时报错：UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xbb’ in position 28613: illegal multibyte sequence 虽然不影响爬取的内容，但是很好奇地查了一下，是字符编码BOM的锅。BOM（Byte Order Mark），字节顺序标记，出现在文本文件头部，Unico...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。