【Python爬虫】爬取大众点评团购详情及团购评论

最新推荐文章于 2025-04-04 18:30:14 发布

纸月十

最新推荐文章于 2025-04-04 18:30:14 发布

阅读量3.9k

点赞数 4

分类专栏： python学习笔记文章标签： python 爬虫大众点评反爬 requests

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40418574/article/details/83107054

版权

本文介绍了使用Python爬虫抓取大众点评美发、健身类目团购详情和评论的全过程，包括获取团购项目ID、详情、评论以及应对反爬策略。采用Requests和BeautifulSoup库，详细讲解了页面解析、动态加载评论的抓取以及自动翻页的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 项目简介

从大众点评网收集北京市所有美发、健身类目的团购详情以及团购评论,保存为本地txt文件。
技术：Requests+BeautifulSoup
以美发为例：http://t.dianping.com/list/beijing?q=美发
在这里插入图片描述
爬取内容包括：
【团购详情】团购名称、原价（最高价）、团购价、销量，团购里包含的各个项目的名称、单价。
【团购评论】包括评论用户名称、评论星级、评论时间、评论内容。

团购评价

2 程序结构

从大众点评团购页面获取所有“美发”、“健身”团购项目id的列表；
根据团购项目列表逐个获取每个项目的团购详情、团购评论；
存储数据到本地文件。

3 爬取前准备工作（以美发为例）

爬取前需要提前查看所要爬取信息的位置—是静态存储在html页面还是通过JavaScript动态生成？
查看方法
在想要爬取页面右键点击“查看网页源代码”，在源代码如果能搜索到即为静态存储在html页面，否则为通过JavaScript动态生成。
经过检查，团购项目id、团购详情静态存储在html中，团购评价为JavaScript动态生成。

3.1 获取团购项目id列表、团购详情

获取所有团购项目id列表：http://t.dianping.com/list/beijing?q=美发
获取id为“6009460”团购详情：http://t.dianping.com/deal/6009460

3.2 获取团购评价

由于团购评价信息由js动态生成，不存在源代码中，需要动态加载页面。
解决方案

在团购评价所在页面点击F12，依次点击Network和XHR打开如下界面；
向下滑动页面，直至页面全部加载出评论信息；
找到下图中框选的“detailDealRate?..”点击打开；

最低0.47元/天解锁文章

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。