【爬虫】【原创】08 使用简单正则表达式爬取下厨房（早餐，午餐，晚餐）

最新推荐文章于 2024-09-04 13:58:12 发布

copywang_1992

最新推荐文章于 2024-09-04 13:58:12 发布

阅读量1.1k

点赞数 1

分类专栏： spider 文章标签：正则表达式爬虫数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangjx92/article/details/78903347

版权

本文介绍了如何使用正则表达式爬取下厨房中与早餐、午餐、晚餐相关的菜谱信息，包括菜谱链接、图片地址、菜名、材料、做菜人数以及作者。在爬取过程中，对早餐的特殊跳转链接进行了单独处理，并通过多线程进行页面抓取。此外，还使用Selenium和PhantomJS进行网页截图并保存。尽管存在一些问题，如非统一的评分提取和文件名特殊字符处理，但整体实现了基本的爬虫功能。18页的爬取在5.5分钟内完成，代码可在GitHub找到。

摘要由CSDN通过智能技术生成

目的

1) 提取下厨房关键词为（早餐，午餐，晚餐）的菜谱

2) 获取“菜谱链接，图片地址，菜名，材料，七天内多少人做过，作者“，存储到MONGODB

3) 对每个菜谱进行网页截图，保存到本地

2. 目标站点分析

网址：

http://www.xiachufang.com/

输入关键词“早餐”，发现是跳转链接（暂时没想到这种怎么处理比较好，就单独拿出来处理吧）

午餐和晚餐的网址就比较一致

3. 爬取思路（以午餐为例）

1) 根据午餐关键词，组合url，请求得到第一页结果

2) 解析第一页结果，使用正则表达式获取，提取详情页信息和其他信息

3) 根据详情页信息的url获取详情页，截图保存，文件夹使用详情页URL的ID_菜名

4) 改变page参数࿰

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。