Beautiful Soup 基础入门（实验楼学习笔记2）

最新推荐文章于 2022-10-06 17:06:01 发布

gnipgnoy

最新推荐文章于 2022-10-06 17:06:01 发布

阅读量403

点赞数 1

分类专栏： python新人笔记文章标签：学习 python 开发语言

本文链接：https://blog.csdn.net/gnipgnoy/article/details/125758889

版权

本文是Beautiful Soup入门教程，介绍如何利用该库解析HTML，遍历和搜索文档树，提取世界大学排名的数据。内容涵盖Beautiful Soup简介、获取HTML页面、解析HTML以及遍历和搜索技巧。

摘要由CSDN通过智能技术生成

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

接下来将学习用 Beautiful Soup 库来实现数据抓取。将会通过爬取世界大学校园排名和蓝桥云课课程的数据来讲解 Beautiful Soup 库的基础知识。它包括如何用 Beautiful Soup 库的解析器去解析页面内容、如何遍历和搜索标签树、如何提取出关键的数据并保存到列表或者字典里

知识点

Requests 库
遍历文档树
搜索文档树
标签基本元素
Beautiful Soup 库解析器

一、Beautiful Soup 简介

Beautiful Soup 库简单来说，就是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。本次实验中，第一个例子是在软科上去爬取 2021年软科类世界大学排名的数据。爬取的内容如下图所示：
在这里插入图片描述

二、获取 HTML 页面

我们要爬取上图中的三列数据，世界排名、学校名字和总分。首先我们用 Chrome 浏览器去访问这个页面。然后使用快捷键 F12 打开开发者工具来观察该页面中我们所要爬取数据的标签结构。

把鼠标移到要定位代码的数据上，右键鼠标检查就能定位到相应的代码，如下图所示。从下图可以看到一所大学的信息是存储在表格的一行里的。我们需要获取每一行的第 1 列、第 2 列和第 5 列的数据。
在这里插入图片描述
使用调试工具观察标签结构后，不难发现，我们想要获取的数据都是存储在表格中的，如下图所示。在本实验中最主要的任务就是要学会如何去遍历 tbody 标签的孩子标签，获取 tr 标签里 td 标签的数据。

确定好目标之后，接下来使用

requests.get()

来获取整个页面的内容。用

import requests

来导入 Requests 库。Requests 库简单来说，就是自动提交网络请求，爬取 HTML 页面。

获取世界大学排名的页面信息

代码如下（示例）：

import requests

r = requests.get("https://www.shanghairanking.cn/rankings/arwu/2021")  # get 请求指定的页面信息
r

最低0.47元/天解锁文章

gnipgnoy

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Beautiful Soup 基础入门（实验楼学习笔记2）

接下来将学习用 Beautiful Soup 库来实现数据抓取。将会通过爬取世界大学校园排名和蓝桥云课课程的数据来讲解 Beautiful Soup 库的基础知识。它包括如何用 Beautiful Soup 库的解析器去解析页面内容、如何遍历和搜索标签树、如何提取出关键的数据并保存到列表或者字典里Beautiful Soup 库简单来说，就是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。本次实验中，第一个例子是在软科上去爬取 2021年软科类世界大学排名的数据。爬取的内容如下图所示
复制链接

扫一扫