家有高中生的家长们是不是开始关心孩子将来能上一所什么样的大学,那有多少人知道我们全国有多少大学呢,他们之前的排名又是怎么样的?今天我们就来说说如何利用python的Beautifulsoup模块来获取ABC全国大学排名。
首先我们先了解下什么是Beautifulsoup?
Beautifulsoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautifulsoup是一个解析器,可以特定的解析出内容,省去了我们编写正则表达式的麻烦。
安装Beautifulsoup
pip install beautifulsoup4
Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml。
pip install lxml
以下是主要的解析器,以及它们的优缺点(以下摘录之百度百科):
解析器 | 使用方法 | 优势 | 劣势 |
---|---|---|---|
Python标准库 | BeautifulSoup(markup, "html.parser") | Python的内置标准库执行速度适中文档容错能力强 | Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差 |
lxml HTML 解析器 | BeautifulSoup(markup, "lxml") | 速度快文档容错能力强 | 需要安装 |