BeautifulSoup操作

最新推荐文章于 2024-07-26 17:15:21 发布

暖洋洋的好日子

最新推荐文章于 2024-07-26 17:15:21 发布

阅读量2.4k

点赞数

分类专栏： python及其应用文章标签： processing 文档 python import 工具 html

python及其应用专栏收录该内容

20 篇文章 0 订阅

订阅专栏

前面向大家介绍了 PyQuery ，下面转而介绍一下 BeautifulSoup , Beautiful Soup 是 Python 内置的网页分析工具，名字叫美丽的蝴蝶。呵呵，某些时候确如美丽蝴蝶一样。
先来段介绍:
Beautiful Soup 是一个 Python HTML/XML 处理器，设计用来快速地转换网页抓取。以下的特性支撑着 Beautiful Soup：

Beautiful Soup 不会选择即使你给他一个损坏的标签。他产生一个转换DOM树，尽可能和你原文档内容含义一致。这种措施通常能够你搜集数据的需求。
Beautiful Soup 提供一些简单的方法以及类Python语法来查找、查找、修改一颗转换树：一个工具集帮助你解析一棵树并释出你需要的内容。你不需要为每一个应用创建自己的解析工具。
Beautiful Soup 自动将送进来的文档转换为 Unicode 编码 而且在输出的时候转换为 UTF-8,。除非这个文档没有指定编码方式或者Beautiful Soup 没能自动检测编码，你需要手动指定编码方式，否则你不需要考虑编码的问题。

Beautiful Soup 转换任何你给他的内容，然后为你做那些转换的事情。你可以命令他 “找出所有的链接", 或者 "找出所有 class 是 externalLink 的链接" , 再或者是 "找出所有的链接 url 匹配 ”foo.com", 甚至是 "找出那些表头是粗体文字，然后返回给我文字“.
那些设计不好的网站中的有价值的数据可以被你一次锁定，原本要花数个小时候的工作，通过使用 Beautiful Soup 可以在几分钟内搞定。
下面让我们快速开始：
首先引用包：