爬虫系列之大众点评

提供代码运行过程的相关咨询服务,确保代码成功运行。

本文代码已同步更新到,下面公众号。请大家关注公众号   【 Python人生之技术实践】,  近期将推出 豆瓣、知乎、微博、网易云音乐、拉勾网、知网的爬虫教程,代码已经完成,在整理阶段谢谢。

本文以获取大众点评网的店铺评论内容为案例,对爬虫的基本流程进行讲解。

全文共分为:准备工作、爬虫流程、爬虫代码三个部分。 

声明:代码仅供学习交流,不能进行商业活动。如有侵权,请联系删帖。

1 准备工作


 

系统环境:windows 10

编辑器:pycharm, sublime

编程语言:python3.6

1.1 下载谷歌浏览器链接

https://pan.baidu.com/s/1lOKy9951FubKTECAcKVfRg

提取码:56xn

1.2 配置google 浏览器

安装完成后,在chrome浏览输入 chrome://version/ 查看版本号。

如下图 chrome的安装程序:

https://npm.taobao.org/mirrors/chromedriver/81.0.4044.69/

找到对应版本的chromedriver_win32.zip并下载。

如下图表示chromedriver.exe的安装程序:

大家也可以在这里下载我之前上传到百度云的chromedriver_win32:https://pan.baidu.com/s/16kWWKEzfzNpRMsniVUWngQ

提取码:8tgh。


 

2  爬虫目标 :大众点评网  某个店铺的所有评论内容


 

步骤1:首先登录大众点评网,因为需要复制cookies信息, 只有登陆后才能获取信息。

步骤2:分析评论内容,发现所有的评论内容均在html中,因此使用 xpath 筛选网页信息。

步骤3:在获取评论文本时发现,大众点评对评论内容进行了“图片—文字替换”,因此需要将评论中的图片文字转化为真正的文字。此过程称为网页评论图片-文字转换。将转换完成后的页面,作为新的解析网页。

爬虫网址:http://www.dianping.com/shop/515381/review_all
爬虫策略:使用selenium 伪装用户对网址进行请求,必须携带cookies信息。

爬虫难点:评论图片转换为评论文字。

   

                                       

爬虫结果:

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值