大众点评评论抓取

凉城的夜

于 2018-08-01 15:09:22 发布

阅读量1.1w

点赞数 3

文章标签： python 大众点评评论爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_32651363/article/details/81330914

版权

一、背景

大众点评评论部分还是值得我们关注的，因为我们上点评网看的也就是评论，通过评论抓取分析，也有利于我们对店铺有更加清晰的定位

二、抓取分析

首先通过店铺列表页可以得到各家店铺的URL列表，或者店铺的ID，因为店铺详情页就是通过店铺ID做的相应拼接。如：http://www.dianping.com/shop/2972056/review_all/p; 第一个关键字就是店铺ID，第二个关键字为评论详情页，第三个P则为翻页。注意review_all是关键字。

详情页我们抓取了用户名称，用户url链接，以及用户对店铺做的一些相应评价。

三、数据抓取

该网站好多数据都通过Ajax请求传送，但这部分评论信息没找到，因此通过普通方式抓取，同时它的user-agent很特别，不能带cookie信息，也不能带Referer信息，否则不会给你返回值，但是做大量翻页抓取的时候要不断迭代改变Regerer，这样才不至于被反爬。

代码：

#!

最低0.47元/天解锁文章

评论 18

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。