python beautifulsoup模拟点击_Python爬虫丨BeautifulSoup实践

最新推荐文章于 2023-10-11 15:34:05 发布

weixin_39618169

最新推荐文章于 2023-10-11 15:34:05 发布

阅读量1.3k

点赞数

文章标签： python beautifulsoup模拟点击

本文介绍了如何使用Python的BeautifulSoup库模拟点击，爬取下厨房网站的【本周最受欢迎】栏目中的菜名、所需材料和详情页URL。通过分析页面结构，提取最小父级标签，并利用find_all()和find()方法查找相关信息。提供了两种不同的代码实现方式，一种是先获取所有父级标签再提取信息，另一种是分别提取菜名、URL和食材，然后一一对应。

摘要由CSDN通过智能技术生成

项目分析

爬取的网站是下厨房，目标是固定栏目【本周最受欢迎】

可以看到我们要爬取的/explore/不在禁止爬取的列表内

1.先看下页面

计划拿到的信息是：菜名、所需材料、和菜名所对应的详情页URL

2.打开检查工具，在Elements里查看这个网页。

3.点击开发者工具左上角的小箭头，然后选中一个菜名，那么Elements会自动标记出对应的代码。

4.找到详情页URL的所在位置。其值是/recipe/104486698/

我们可以提取标签，然后用text拿到它的文本，在使用[href]获取到半截URL和http://www.xiachufang.com做拼接即可。

5.找食材位置，点击小箭头，挑选食材。

6.根据菜名的路径、URL的路径、食材的路径，寻找这三者的最小共同父级标签

两种写爬虫的思路：

思路一：先去爬取所有的最小级父级标签

，然后针对每一个父级标签，提取里面的菜名、URL、食材

思路二：分别提取所有的菜名、所有的URL、所有的食材。然后一一对应起来。

代码实现(一)

获取与解析

用requests.get()获取数据，使用BeautifulSoup来解析

最低0.47元/天解锁文章

weixin_39618169

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。