BeautifulSoup4解析页面

拾阿拾阿

已于 2022-07-09 09:12:32 修改

阅读量363

点赞数

文章标签： python 开发语言

于 2022-07-08 17:42:34 首次发布

本文链接：https://blog.csdn.net/shasha_bucou_sha/article/details/125683138

版权

本文介绍了如何利用BeautifulSoup4库解析和提取网页数据。首先通过requests获取页面响应，然后用BeautifulSoup4对页面进行解析。讨论了静态和动态页面的区别，并指出requests获取的是静态页面内容。最后，讲解了select、select_one方法以及text和attrs属性的使用，帮助从HTML中抓取所需信息。

摘要由CSDN通过智能技术生成

BeautifulSoup4解析页面

步骤：
1.requests - 请求页面，得到响应结果
2.BeautifulSoup4 - 根据响应结果解析页面、提取数据
3.写入文件、数据库
（bs4 就是 BeautifulSoup4）
bs4模块能够从html或者xml中提取数据。
BeautifulSoup(网页源码，解析器) -> 将字符串类型的源代码转换为bs4类型。
bs模块提供了一系列提取数据的方法，这些方法的操作对象的bs4类型的数据。
headers = {} --> headers是应该字典：{key:value}。headers是给爬虫提供伪装的。
User-Agent --> 将爬虫伪装成浏览器。

为什么要对比打印结果和网页中的内容是否一致？

网页：分为静态页面和动态页面
静态页面：内容写死的，除非人为的进行内容修改，否则这个页面的内容是一成不变的。
动态页面：内容不是写死的，使用某种特殊的技术（JavaScript）使数据通过某种方式显示在页面中。
requests得到的结果是静态页面的结果。
select:根据CSS选择器（标签、class、id等）定位数据，得到的是符合这选择器的所有结果。（整体是列表，列表中每一个元素是一个bs4类型的数据）。
select_one:根据CSS选择器（标签、class、id等）定位数据，得到的是符合这选择器的一个结果。（是一个bs4类型数据）。
text:从bs4类型数据中提取标签内的内容，结果为str.
attris:从bs4类型数据中提取标签内容属性值，结果为str.

import requests
from bs4 import BeautifulSoup
for page in range

最低0.47元/天解锁文章

拾阿拾阿

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
BeautifulSoup4解析页面

步骤：1.requests - 请求页面，得到响应结果2.BeautifulSoup4 - 根据响应结果解析页面、提取数据3.写入文件、数据库（bs4 就是 BeautifulSoup4）bs4模块能够从html或者xml中提取数据。BeautifulSoup(网页源码，解析器) -> 将字符串类型的源代码转换为bs4类型。bs模块提供了一系列提取数据的方法，这些方法的操作对象的bs4类型的数据。headers = {} --> headers是应该字典：{key:value}。heade
复制链接

扫一扫