Selenium 如何获取鼠标指向的元素?

这是「进击的Coder」的第 583 篇技术分享

作者:kingname

来源:未闻 Code

阅读本文大概需要 6 分钟。

有一个同学在 Gne 的群里面咨询如何通过 Selenium 获取当前鼠标指向的元素,在我讲了方法以后,他过了两天又来问:

b3ca23141d47a8439c93b740fc35e8a5.png

那么,我今天就来写一篇文章,具体说说应该怎么操作。

这个方法的核心,是借助 JavaScript 的事件 (event) 来获取鼠标所在的元素。然后再把这个元素传递给 Selenium。我们先来第一步,不考虑 Selenium,只使用 JavaScript,如何获取当前鼠标指向的元素呢?

我们首先需要知道在 JavaScript 中的一个事件句柄,叫做window.onmousemove。默认情况下,它的值是 null:

90943859065a9ff717e292aec2de6b55.png

我们可以把它的值修改成一个函数,这个函数接收一个event参数,这样当鼠标在网页上移动的时候,这个函数就会被调用。而event参数是一个对象,这个对象有两个属性.clientX.clientY,分别表示鼠标相当于网页的横坐标和纵坐标:

function track_mouse(event){
 var x = event.clientX, y = event.clientY
 console.log('当前鼠标所在位置的坐标:x=' +  x + 'y=' + y)
}

运行效果如下图所示:

a466e14e579131442693daa496a18c86.png

你执行命令以后,只要在页面上移动鼠标,你就会在控制台看到大量的坐标被打印出来。

接下来,既然你有了当前鼠标所在位置的坐标,那么你只需要根据坐标查询到这个元素是什么就可以了。在 JavaScript 中,有一个函数叫做document.elementFromPoint,就能实现这个效果:

function track_mouse(event){
 var x = event.clientX, y = event.clientY
 var element = document.elementFromPoint(x, y)
  if (!element) {
  return // 当前位置没有元素
 } 
  return element
}

那么,如何把这个参数返回给 Selenium 呢?其实也非常简单,我们设置一个全局变量window.hovered_element,然后把当前鼠标对应的元素赋值给它。然后在 Selenium中,使用.execute_script获取window.hovered_element就可以了。

我们先来看看完整的 JavaScript:

window.hovered_element = null
function track_mouse(event){
 var x = event.clientX, y = event.clientY
 var element = document.elementFromPoint(x, y)
  if (!element) {
      window.hovered_element = null
  return // 当前位置没有元素
 } 
  window.hovered_element = element
}
window.onmousemove = track_mouse

然后我们再来看看 Selenium 中的 Python 代码:

import time
from selenium.webdriver import Chrome

driver = Chrome('./chromedriver')
driver.get('https://www.kingname.info/')

js = '''
window.hovered_element = null
function track_mouse(event){
 var x = event.clientX, y = event.clientY
 var element = document.elementFromPoint(x, y)
  if (!element) {
      window.hovered_element = null
  return // 当前位置没有元素
 } 
  window.hovered_element = element
}
window.onmousemove = track_mouse
'''

driver.execute_script(js)
while True:
    element = driver.execute_script('return window.hovered_element')
    if element:
        print(f'当前鼠标所在的标签为:{element.tag_name}, 其中的文本内容为:{element.text}')
    time.sleep(1)

运行效果如下图所示:

f416db50fc8a5ceacbcad842968b8be2.png

获取到了当前鼠标所在的元素的标签和标签里面的文字。

到这里,这个同学需要的功能已经完全实现了。

但可能有聪明的同学会发现,他这个需求是有问题的。我们能看到至少有三个问题:

  1. 因为window.onmousemove太灵敏了,它的采样时间是毫秒级别的,鼠标稍稍移动一点点就会生成一个事件。但是,一个元素的区域是很大的,在一个元素内部移动鼠标,其实根本没有必要更新window.hovered_element

  2. 在 Selenium 里面,是通过while True每 1 秒查询一次window.hovered_element,虽然我们已经降低了频率,但大家从上面的图中可以看到,还是会获取到很多重复的数据。这是由于有一些元素非常大,我们鼠标如果在上面慢慢移动,时间会超过 1 秒,那么 Selenium 就会重复获取到数据。

  3. 由于window.onmousemove的采样时间间隔很小,所以我们可以近似把鼠标的移动看做是连续的移动。因此,这段代码会记录鼠标轨迹路径上面的每一个元素。但实际上,我们并不会对网页上所有的内容都感兴趣,我们只会对特定的内容感兴趣。因此,获取当前鼠标所在位置的元素,其实是一个伪需求,它根本没有什么实际上用处,因为噪声太大了,无用的数据太多了!

实际上,我觉得真正的需求应该是这样的:如果鼠标在网页上面某个元素停留时间超过 5 秒,那么获取这个元素。

但这样做太费时间了。每次都要等 5 秒,岂不是带薪摸鱼?那需求能不能改成获取当前鼠标点击的元素呢?如果你实践一下,你会发现,当你点击一个链接的时候,网页自动就跳转到另一个页面去了,并不能获取到你需要的数据。

那么这个时候怎么办呢?请大家期待我的下一篇文章,不仅能解决这个问题,而且会给大家带来 Gne 项目的新产品,GneList,为你自动获取网站列表页的各个条目。

819097e7bd130fece75cfd13f82e8a45.png

End

崔庆才的新书《Python3网络爬虫开发实战(第二版)》已经正式上市了!书中详细介绍了零基础用 Python 开发爬虫的各方面知识,同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容,‍同时本书已经获得 Python 之父 Guido 的推荐,目前本书正在七折促销中!

内容介绍:《Python3网络爬虫开发实战(第二版)》内容介绍

8c39ce8cea62e079ca073861f220850a.png

扫码购买

3cfc2cc0ca2330c7bb2a8d9c0734f476.png

好文和朋友一起看~

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值