scrapy学习之路（六）selenium 模拟下拉加载

最新推荐文章于 2024-04-13 14:44:53 发布

huyongchao98

最新推荐文章于 2024-04-13 14:44:53 发布

阅读量1.8k

点赞数

分类专栏：网络爬虫文章标签：网络爬虫 scrapy selenium 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huyongchao98/article/details/103925508

版权

网络爬虫专栏收录该内容

8 篇文章 0 订阅

订阅专栏

很多网页，有下拉加载或者懒加载的功能，如何爬取这类网站呢？

还是通过selenium模拟人工操作来实现，这里以下拉加载为例介绍，依然在DownloaderMiddleware中实现该功能，具体代码如下：

在process_request方法中，判断是需要处理的页面以后，加入如下代码：

driver = spider.driver

driver.get(request.url)

time.sleep(3)

# 获取页面初始高度

js = "return action=document.body.scrollHeight"

height = driver.execute_script(js)

# 将滚动条调整至页面底部

#driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')

#定义初始时间戳（秒）

t1 = int(time.time())

#定义循环标识，用于终止while循环

status = True

# 重试次数

num = 0

while status:

# 获取当前时间戳（秒）

t2 = int(time.time())

# 判断时间初始时间戳和当前时间戳相差是否大于30秒，小于30秒则下拉滚动条

if t2 - t1 < 30:

new_height = driver.execute_script(js)

if new_height <= height:

time.sleep(1)

driver.execute_script(

'window.scrollTo(0, document.body.scrollHeight)'

)

# 重置初始页面高度

height = new_height

# 重置初始时间戳，重新计时

t1 = int(time.time())

else:

status = False

elif num < 3: # 当超过30秒页面高度仍然没有更新时，进入重试逻辑，重试3次，每次等待30秒

time.sleep(3)

num = num + 1

else: # 超时并超过重试次数，程序结束跳出循环，并认为页面已经加载完毕！

print("滚动条已经处于页面最下方！")

status = False

# 滚动条调整至页面顶部

driver.execute_script('window.scrollTo(0, 0)')

break

time.sleep(5)

return HtmlResponse(

url=spider.driver.current_url, # 当前的url

body=spider.driver.page_source, # html源码

encoding='utf-8')

以上能够实现一次下拉加载，多次的话，可以自己琢磨了！

数据返回HtmlResponse即可交给spider进行解析。

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。