Python爬虫之正则 & BeautifulSoup4解析HTML

最新推荐文章于 2024-07-19 09:51:27 发布

趁手的就是最好的

最新推荐文章于 2024-07-19 09:51:27 发布

阅读量7.9k

点赞数 4

分类专栏： Python 文章标签： python html解析编码

本文链接：https://blog.csdn.net/idiot_xue/article/details/72626332

版权

本文介绍了Python爬虫在处理HTML时涉及的编码问题，包括字符编码历史、正则表达式和BeautifulSoup4库的使用。讲解了ASCII、Unicode、UTF-8以及Python中的编码概念，并提供了相关资源链接。

摘要由CSDN通过智能技术生成

1.前言

为了弄清下面几个问题，需要对编码演变的历史做必要的介绍，更详细介绍可以在本文的参考资料中查看

字符（Character）：是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等
字符集（Charset）：是多个字符的集合，每个字符集包含字符个数不同，常见字符集有ASCII，GB2312，BIG5，Unicoede，UTF-8等
字符编码（Character Encoding）：为了让计算机能够识别和存储字符集所使用的法则，使字符集和数字系统建立对应关系
下面按发展史简要介绍几种主要字符集及其编码

ASCII字符集：包括控制字符（回车，换行等），可显示字符（英文字符，阿拉伯数字等）
ASCII编码：将ASCII字符集转换为计算机可存储计算的数的规则，
特点：这是较早出现、现今最通用的单字节编码，即8 bits表示一个字符.举例，查ASCII码对照表知，a的ASCII码值为97（十进制），二进制表示为01100001（占用一字节）
缺点：显然ASCII能显示的字符仅限于英语，扩展后的ASCII也只解决了部分西欧语言的显示，Macbook就放弃了ASCII而采用后面提到的Unicode