爬虫系列之大众点评

最新推荐文章于 2024-05-31 11:35:50 发布

wujiajia2017scnu

最新推荐文章于 2024-05-31 11:35:50 发布

阅读量1.5k

点赞数

分类专栏：爬虫文章标签： selenium 大众点评爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36090423/article/details/106864627

版权

提供代码运行过程的相关咨询服务，确保代码成功运行。

本文代码已同步更新到，下面公众号。请大家关注公众号【 Python人生之技术实践】，近期将推出豆瓣、知乎、微博、网易云音乐、拉勾网、知网的爬虫教程，代码已经完成，在整理阶段谢谢。

本文以获取大众点评网的店铺评论内容为案例，对爬虫的基本流程进行讲解。

全文共分为：准备工作、爬虫流程、爬虫代码三个部分。

声明：代码仅供学习交流，不能进行商业活动。如有侵权，请联系删帖。

1 准备工作

系统环境：windows 10

编辑器：pycharm， sublime

编程语言：python3.6

1.1 下载谷歌浏览器链接

https://pan.baidu.com/s/1lOKy9951FubKTECAcKVfRg

提取码：56xn

1.2 配置google 浏览器

安装完成后，在chrome浏览输入 chrome://version/ 查看版本号。

如下图 chrome的安装程序：

https://npm.taobao.org/mirrors/chromedriver/81.0.4044.69/

找到对应版本的chromedriver_win32.zip并下载。

如下图表示chromedriver.exe的安装程序：

大家也可以在这里下载我之前上传到百度云的chromedriver_win32：https://pan.baidu.com/s/16kWWKEzfzNpRMsniVUWngQ

提取码：8tgh。

2 爬虫目标：大众点评网某个店铺的所有评论内容

步骤1：首先登录大众点评网，因为需要复制cookies信息，只有登陆后才能获取信息。

步骤2：分析评论内容，发现所有的评论内容均在html中，因此使用 xpath 筛选网页信息。

步骤3：在获取评论文本时发现，大众点评对评论内容进行了“图片—文字替换”，因此需要将评论中的图片文字转化为真正的文字。此过程称为网页评论图片-文字转换。将转换完成后的页面，作为新的解析网页。

爬虫网址：http://www.dianping.com/shop/515381/review_all

爬虫策略：使用selenium 伪装用户对网址进行请求，必须携带cookies信息。

爬虫难点：评论图片转换为评论文字。

爬虫结果：

最低0.47元/天解锁文章

wujiajia2017scnu

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
爬虫系列之大众点评

本文以获取大众点评网的店铺评论内容为案例，对爬虫的基本流程进行讲解。全文共分为：准备工作、爬虫流程、爬虫代码三个部分。声明：代码仅供学习交流，不能进行商业活动。如有侵权，请联系删帖。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。