爬虫需要的用到库、方法以及步骤

钰子t

已于 2022-07-11 20:35:40 修改

阅读量230

点赞数

分类专栏：爬虫文章标签： python 爬虫

于 2022-07-11 20:04:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_69100942/article/details/125707572

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

爬虫需要的库、方法以及步骤

1 网页

分为静态页面和动态页面。

静态页面：内容是写死的，除非人为的进行内容修改，否则这个页面的内容是一成不变的。
动态页面：内容不是写死的，使用某种特殊的技术（JavaScript）使数据通过某种方式显示在页面中。

2 需要用到的库

requests请求页面，得到的结果是静态页面的结果。
BeautifulSoup(网页源码,解析器)：将字符串类型的源代码转换为bs4类型。
bs模块提供了一系列提取数据的方法，这些方法的操作对象的bs4类型的数据。
bs4模块能够从html或xml中提取数据

3 需要用到的方法

select：根据CSS选择器（标签、class、id等）定位数据，得到的是符合这个选择器的所有结果（整体是列表，列表中每个元素是一个bs4类型的数据）。
select_one：根据CSS选择器（标签、class、id等）定位数据，得到的是符合这个选择器的一个结果（是一个bs4类型数据）。
text：从bs4类型数据中提取标签内的内容，结果为str。
attris：从bs4类型数据中提取标签内容属性值，结果为str。

4 爬取数据的步骤

使用 requests请求页面，得到响应结果。
使用 BeautifulSoup4根据响应结果解析页面、提取数据。
将提取的数据写入文件、数据库。

一个小栗子：
请添加图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫需要的用到库、方法以及步骤

爬虫需要的用到库、方法以及步骤
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。