基于网络摄像头的 CNN 模型进行实时注视估计进行人机交互Python实现

摘要

眼动跟踪和估计对于理解人类行为和增强人机交互至关重要。本研究介绍了一种使用标准网络摄像头进行实时注视跟踪的创新、经济高效的解决方案,为依赖昂贵的红外 (IR) 相机的传统方法提供了一种实用的替代方案。传统方法,如瞳孔中心角膜反射 (PCCR),需要红外相机来捕捉角膜反射和虹膜闪光,需要高分辨率图像和受控环境。相比之下,所提出的方法利用在网络摄像头捕获的图像上训练的卷积神经网络 (CNN) 来实现精确的注视估计。开发的深度学习模型通过一种新的基于轨迹的精度评估系统,实现了 0.0112 的均方误差 (MSE) 和 90.98% 的精度。该系统涉及球在屏幕上移动的动画,用户的视线跟随球的运动。准确性是通过根据球的半径计算落在预定义阈值内的注视点的比例来确定的,从而确保全面评估系统在所有屏幕区域的性能。数据收集既简单又有效,当用户专注于屏幕时捕获右眼的图像。此外,该系统还包括高级凝视分析工具,例如热图、凝视注视跟踪和眨眼速率监控,这些工具都集成到一个直观的用户界面中。通过整合 Google 的 Mediapipe 模型进行面部特征点检测,进一步增强了这种方法的稳健性,从而提高了准确性和可靠性。评估结果表明,所提出的方法无需昂贵的设备即可提供高精度的注视预测,使其成为人机交互和行为研究中各种应用的实用且易于使用的解决方案。

1. 引言

在计算机视觉和人机交互领域,注视估计旨在根据面部或眼睛图像确定一个人的视线位置。这项技术有多种应用,包括虚拟现实 [1]、市场研究 [2] 和残障人士辅助技术 [3]。传统上,眼动估计依赖于专用硬件,例如红外相机,这些硬件既昂贵又笨重,使其只能在受控的实验室环境中使用。这项研究通过开发由卷积神经网络 (CNN) 提供支持的基于网络摄像头的凝视跟踪系统来解决这些挑战。动机在于创建一种经济实惠、可访问且用户友好的传统系统替代方案。通过利用 CNN,这种方法使用标准网络摄像头有效地提取凝视信息,从而显著降低成本和设置复杂性。这种创新方法还强调包容性、实时处理和适应性,使其适用于从辅助技术到人机交互的各种应用,同时优先考虑道德和实际考虑。
1.1. 问题域的一般概述
近年来,眼动追踪技术已成为增强可访问性、改善用户交互和深入了解人类行为的强大工具。虽然传统的眼动追踪系统具有高精度,但它们通常存在一些重大缺点,例如成本高和可访问性有限。因此,这些系统仍然未得到充分利用,尤其是在经济性和易用性至关重要的面向消费者的应用中。
深度学习的出现,尤其是卷积神经网络 (CNN),改变了计算机视觉,能够更快、更准确地处理视觉数据。通过利用 CNN,现在可以使用标准网络摄像头创建凝视跟踪模型。眼动追踪的普及在各个领域开启了许多新的应用和机会。
尽管基于网络摄像头的凝视跟踪前景广阔,但要成功集成到更广泛的应用程序中,必须解决一些挑战。关键问题包括以下小节中列出的问题。
1.1.1. 法律和道德问题
隐私问题:眼动追踪涉及捕获敏感数据,包括用户的注意力、兴趣和认知模式。收集和使用此类数据会引发严重的隐私问题,尤其是在面向消费者的应用程序中,用户可能无法完全了解所记录数据的范围。
数据安全:确保凝视数据的安全性对于防止滥用或未经授权的访问至关重要。强大的数据保护措施和遵守隐私法规(例如《通用数据保护条例》(GDPR))对于解决这些问题至关重要。
1.1.2. 社会和道德问题
偏差和包容性:基于 CNN 的模型可以继承其训练数据集中存在的偏差,从而导致不同种族、眼型或有视力障碍的用户的眼动估计不准确。解决这些偏见对于确保该技术对所有用户公平和包容至关重要。
对用户行为的影响:消费者应用程序(如广告或社交媒体)中使用的眼动追踪技术可以创建微妙影响用户行为的纵策略。这引发了对在商业环境中滥用眼动数据的道德担忧,这可能导致剥削行为。
1.1.3. 经济影响
基于网络摄像头的眼动追踪的采用解决了眼动估计中与成本相关的挑战,使该技术更容易用于研究和商业应用。通过减少对专用硬件的依赖,这种方法提高了可负担性,使其能够在医疗保健、营销和游戏等领域得到更广泛的采用。这种转变促进了创新,并支持经济高效的实时凝视跟踪解决方案。
1.1.4. 商业风险和风险管理
技术限制:基于网络摄像头的系统可能面临挑战,例如在弱光环境下或跟踪快速眼球运动时精度降低。这些限制可能会阻碍它在需要高精度的领域的采用。
市场接受度: 对基于网络摄像头的眼动追踪的准确性、可靠性和隐私性的担忧可能会导致用户和行业犹豫不决。为了降低这些风险,必须进行全面测试和透明地传达该技术的优势。
通过应对这些挑战,基于 CNN 的网络摄像头凝视跟踪的开发有可能彻底改变该领域,使其更易于访问、更实惠并适用于广泛的领域。
为了解决人体实验和数据收集的道德和法律问题,所提出的方法结合了注重隐私的设计原则。通过利用基于网络摄像头的凝视跟踪,避免了侵入性的硬件设置,这种方法最大限度地减少了用户的不适并促进了透明度。参与者充分了解数据收集过程,并在遵守道德准则的情况下获得明确同意。此外,所有数据都是匿名和安全存储的,确保遵守 GDPR 等隐私法规。该方法还通过解决 CNN 模型中的潜在偏见来关注包容性,确保公平对待不同的用户人口统计数据,包括有视觉障碍的用户。
1.2. 眼动估计的应用重要性
视线估计是一项变革性技术,其应用涵盖辅助工具、数字交互和消费者行为分析。对于残障人士,它实现了对设备和软件的免提控制,从而提高了可访问性和独立性 [3,4]。在游戏和虚拟现实中,凝视跟踪通过促进用户焦点驱动的自然交互来增强沉浸感 [5]。
在这些领域之外,眼动估计通过提供对消费者注意力的可行洞察,正在彻底改变营销、销售和广告。实时眼动数据允许广告商创建个性化、自适应的广告内容,优化其投放和设计,以实现最大的相关性和参与度 [6]。在销售中,视线跟踪通过根据视觉焦点提供上下文相关的产品信息或优惠来改变购物体验,从而提高转化率。此外,它还提供无与伦比的消费者行为分析,识别哪些广告元素吸引了注意力并将参与度与购买决策联系起来。
将多功能、经济高效的眼动估计系统集成到数字营销策略中,使企业能够增强消费者参与度、提高广告效果并推动销售增长。从辅助技术到商业应用,眼动估计继续为各行各业带来创新机会,在可访问性、交互性和消费者洞察之间架起桥梁。

2. 相关工作

眼动追踪在推进人机交互 (HCI) 和行为研究方面发挥着至关重要的作用。传统方法,如瞳孔中心角膜反射 (PCCR),依赖于昂贵的红外 (IR) 摄像头和受控环境。这些系统虽然精确,但成本高昂且不适合广泛使用。
2.1. 凝视跟踪方法
Zhu 和 Ji [7] 开发了一种能够自然头部运动的注视追踪系统。这项创新标志着朝着更灵活和用户友好的解决方案迈出了重要一步,表明无需用户保持静止即可进行准确的眼动估计。这一进步为凝视跟踪的动态应用铺平了道路。
同样,Macinnes 等人 [8] 探索了可穿戴眼动追踪设备,比较了它们的精度和准确性。他们的研究结果强调了设备移动性和跟踪性能之间的权衡,强调了在不依赖专用硬件的情况下保持高精度的技术的必要性。这项研究强调了对能够在不同条件下有效运行的可访问眼动追踪解决方案的需求。为了应对这些挑战,所提出的方法与传统的基于 IR 的技术不同,提供了一种采用标准网络摄像头和 CNN 的经济实惠且用途广泛的替代方案。
Wood 等人 [9] 通过他们基于外观的眼动估计器为这一领域做出了贡献,该估计器利用了 100 万张合成图像的数据集。他们的工作强调了数据多样性在训练 CNN 进行凝视估计方面的重要性。然而,他们对合成数据集的使用对在实际场景中实现高精度构成了挑战。他们的研究侧重于受控环境,限制了其在包含自然头部运动的动态环境中的适用性。尽管该数据集在解决训练数据的稀缺性方面具有开创性,但它并没有完全解决与不同条件下的泛化相关的问题。
在这些进步的基础上,Krafka 等人 [10] 推出了一种专为移动设备设计的注视跟踪系统,利用众包数据来捕获更广泛的真实场景。这种方法通过结合不同的环境条件,显著提高了凝视跟踪模型的泛化性。然而,该系统受到对特定头部位置的依赖的限制,并且难以处理自然环境中常见的头部自由运动。虽然包含更大、更多样化的数据集增强了模型的稳健性,但移动设备之间相机质量的差异导致了眼动估计的不一致。
邓和朱[11]通过引入单目3D凝视跟踪系统来应对自由头部运动的挑战。他们的深度学习模型结合了几何约束,以提高自然头部运动条件下的凝视估计准确性,代表了凝视跟踪在现实和实际应用中的重大进步。但是,该系统需要大量的计算资源,因此在标准消费类设备上实时使用的可能性较小。虽然几何约束的引入具有创新性,但它增加了模型的复杂性,从而限制了其在资源受限环境中的适用性。
基于这些发展,Liu等[12]提出了一种基于外观的眼动估计方法,该方法针对头部自由运动和移动设备进行了优化。他们的方法通过根据移动硬件的计算限制定制模型来改进邓和朱[11]的工作。尽管如此,模型复杂性和效率之间的权衡导致准确性略有下降。该研究将视线追踪扩展到更实际的应用,但仍然面临挑战,例如在不同的照明条件和设备类型下保持高精度。
Chen等[13]探讨了不同的深度网络架构对基于CNN的眼动跟踪的影响,对它们的准确性和计算效率进行了比较分析。这项研究为为特定的注视跟踪需求选择合适的架构提供了指南。然而,Chen et al. [13] 并没有提出一种新的注视跟踪系统,而是专注于优化现有模型。他们的发现强调了平衡准确性和实时性能的重要性,尤其是在资源有限的环境中。
Kanade等[14]提出了一种基于CNN的眼睛凝视跟踪系统,旨在提高驾驶员的安全性。他们的系统利用机器学习算法在具有挑战性的条件下准确预测眼睛凝视,在这种特定应用中展示了高精度和高效性。然而,它对其他人机交互 (HCI) 上下文的普遍适用性是有限的。该模型对基于 Web 的应用程序进行了优化,在应对更广泛的挑战方面留下了差距,例如照明和摄像机角度等环境条件的变化。
Ansari等[15]介绍了一种凝视跟踪系统,该系统利用未经修改的网络摄像头和CNN,旨在通过消除对专用硬件的需求,使凝视跟踪更容易获得。这种方法标志着凝视跟踪技术民主化的重要一步,但由于标准网络摄像头的限制,它在实现高精度方面面临限制。这些设备提供的较低图像质量影响了系统的精度,使其不太适合要求苛刻的应用。尽管如此,这项研究代表了在可访问性和性能之间取得平衡的值得称道的努力,强调了进一步创新以提高准确性和实用性的必要性。
Singh 和 Modi [16] 通过创建一个由深度学习提供支持的强大的基于实时摄像头的系统,提高了凝视跟踪的可访问性。他们的系统旨在高精度地分析用户的视觉注意力,展示了其适用于各种应用的适用性。通过增强不同环境条件下的稳健性,该研究解决了早期方法中的局限性。所使用的 CNN 架构展示了性能的显著改进。然而,对相对高质量摄像头的依赖阻碍了更广泛的采用,尤其是在只有标准网络摄像头可用的情况下。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

扫地僧985

喜欢就支持一下,谢谢老板!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值