记一次python+selenium+chrome爬虫

爬虫过程中,只要是稍微复杂一些的页面,经常会遇到经JS生成的数据,导致抓取的页面和我们在浏览器中看到的页面不一致。网站开发者出于性能、反爬虫等考虑进行编写的同时,也给我们爬虫带来了挑战,因为这些数据用请求简单静态页面的方式是获取不到的。

我把“经JS生成的数据”分为两类:1,通过AJAX直接返回的数据(如JSON);2,执行JS后浏览器重新渲染的数据。前者和抓取普通页面没有什么区别:抓包分析url、请求参数再请求即可拿到数据,而后者就比较棘手了。后者又可以继续细分成JS处理原始数据、JS监听用户事件等,在理想条件下,我们可以通过分析JS代码、调用执行JS的python库来完成相应操作,但是在JS比较复杂的情况下,这种办法往往效率不高。

selenium是一个强大的浏览器自动化测试l框架,配合相应驱动与浏览器能够模拟浏览器操作,从而实现在浏览器环境下进行数据抓取。这几天在用python写一个抓取京东商城“小米手机”条目下所有信息的过程中,用到了selenium+chrome。大致流程:1,输入小米手机,点击搜索;2,抓取页面信息;3,翻页之后抓取页面信息。流程看似简单,其中却碰到各种问题,总结一下。

1,未考虑事件触发的AJAX:一个页面应该展示六十种商品,但是只能抓取到三十个。查看源码发现DOM中只有30种商品,该网站在页面滑动到最下端时才会执行AJAX,获取剩下的商品信息。解决方案是调用JS执行滚动触发AJAX。

2,页面没有加载完成就执行操作:包括通过selenium获取元素、执行JS。selenium本质上在操作浏览器、读取浏览器信息。而浏览器渲染DOM、运行JS代码都需要时间,在DOM结构渲染完毕之前如果执行一些操作会达不到预期的效果。上述滚动操作就会经常失败,原因是我在浏览器还没有高度的时候就执行滚动了,而后我加上time.sleep()强制等待代码后就正常了。这种方法简便但是由于等待的是固定时间,既耗时代码也不够健壮(时间太长或太短),selenium有一个wait.until()方法,可以用此判断元素是否已加载、是否可以点击等,也可以设置最长等待时间,若超时则抛出TimeoutException。

3,没有观察页面就解析:京东有些商品没有icons(免邮等标签),甚至没有商家信息(京东自营),如果不加以判断元素是否存在的话就会抛出NoneType异常。一开始我想当然地认为商家信息应该是都有的,找不到bug耗费了比较长时间。还有比较难注意到的一点是元素属性名称不同,在页面滑动到最下端AJAX加载完页面剩下的商品信息时,虽然DOM会完整加载,但只有页面显示过的商品的img元素才有src属性,其他商品的图片链接保存在另一个属性里(按需载入图片优化体验)。另外还有一些CSS选择器的低级失误。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

vansl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值