摘要
静脉穿刺和插管等医疗程序对护士来说是必不可少的,需要精确的技能。反过来,由于每个班级的教师数量和任务的复杂性,学习这项技能对教育工作者来说是一个挑战。该研究旨在通过集成生成式 AI 方法提供对静脉穿刺和插管等医疗程序的实时反馈,帮助学生获得技能并减轻教育者的工作量。
核心速览
研究背景
-
研究问题:这篇文章要解决的问题是如何通过集成生成式AI方法来辅助医疗程序(如静脉穿刺和插管)的培训,以帮助学生更好地掌握这些技能,并减轻教育者的工作负担。
-
研究难点:该问题的研究难点包括:医疗程序的复杂性和精度要求高,现有的训练方法缺乏实时反馈,教育者时间有限,难以对每个学生进行充分指导。
-
相关工作:该问题的研究相关工作包括使用模拟训练设备进行培训,但这些方法缺乏实时反馈和个性化指导。
研究方法
这篇论文提出了利用生成式AI方法,特别是大型语言模型(LLM),为护理学生提供实时反馈的系统。具体来说,
-
数据收集:在2023年11月27日至29日的三天里,研究在南安普顿大学进行,收集了20名参与者的数据,包括13名学生和7名专家。每个参与者进行了两次插管和静脉穿刺操作,共获得80个视频记录。数据包括静态摄像机、GoPro摄像机、音频录音、IMU数据和反馈表。
-
视频分类:首先,研究人员专注于开发视频分类方法,特别是识别视频中医护程序的具体步骤。这涉及精确识别操作过程中执行的单一步骤。
-
反馈生成:其次,研究人员开发了提供反馈的方法。一种方法是使用大型语言模型(LLM),该模型结合程序上下文信息和观察者的反馈作为示例,以及视频分类的结果,为用户提供反馈。具体步骤包括:
-
数据集分割:将数据集按受试者级别分为训练集、验证集和测试集,以确保受试者的独立性。
-
数据采样:应用重叠滑动窗口技术从视频中提取数据样本以训练模型。
-
视频分类:微调视频分类模型(如S3D)以预测协议步骤的标签。
-
LLM集成:整合一个医疗LLM,该模型通过程序上下文信息和观察者反馈作为示例以及视频分类结果进行刺激,从而提供关于程序执行是否正确的反馈,包括检查步骤顺序、识别缺失步骤以及确保清洁皮肤后的足够等待时间。
实验设计
-
数据收集:在2023年11月27日至29日的三天里,研究在南安普顿大学进行,收集了20名参与者的数据,包括13名学生和7名专家。每个参与者进行了两次插管和静脉穿刺操作,共获得80个视频记录。数据包括静态摄像机、GoPro摄像机、音频录音、IMU数据和反馈表。
-
同步:为了确保所有摄像机的同步,研究人员让每个参与者在开始操作前拍手三次,拍手的声音峰值被用作同步视频片段的参考点。智能手表的数据将在后续步骤中同步添加。
-
标注:根据官方的插管和静脉穿刺协议,研究人员开发了详细的标注指令,并在视频上准确标注每个动作的开始和结束时间。
-
转录:观察者提供的音频反馈被转录成文本,使用Nuance Dragon 15 Professional进行自动转录,并在需要时手动校正。
结果与分析
-
视频分类:研究人员正在开发视频分类方法,特别是识别视频中医护程序的具体步骤。这涉及精确识别操作过程中执行的单一步骤。
-
反馈生成:研究人员开发了使用大型语言模型(LLM)提供反馈的方法。具体步骤包括数据集分割、数据采样、视频分类和LLM集成。通过这些步骤,研究人员希望创建一个能够基于用户的医疗程序执行表现提供准确和有用反馈的稳健系统。
总体结论
从目前的研究中得出了几个重要的结论。正确标注视频中的医疗程序是一项具有挑战性的任务,即使是对于人类。这引发了一个问题,即生成式AI在多大程度上可以帮助解决这一问题。未来的工作将包括将智能手表数据作为额外的输入源,并在南安普顿大学进行现实世界场景的评估。
论文评价
优点与创新
-
创新性方法:论文提出了将生成式AI方法应用于医学培训中,提供实时反馈,以帮助学生学习如静脉穿刺和插管等医疗程序。
-
多模态数据融合:研究集成了静态摄像机、GoPro摄像机、音频记录和IMU数据,提供了全面的音视频同步数据,增强了反馈的准确性和实时性。
-
详细的标注:视频和音频数据被详细标注,确保了数据集的准确性和一致性,为后续的模型训练提供了坚实的基础。
-
视频分类和反馈生成:开发了视频分类方法和基于大型语言模型(LLM)的反馈生成方法,能够提供个性化的实时反馈。
-
实际应用场景:研究计划在实际的医疗培训环境中进行验证,确保系统的实用性和有效性。
不足与反思
-
数据集规模:尽管研究收集了80个录音,但样本量相对较小,可能不足以充分训练和验证模型。
-
细节捕捉:目前系统主要关注步骤的顺序识别,但在执行每个步骤时的细微差别(如针头插入的角度)尚未能准确测量。
-
下一步工作:计划将智能手表数据作为额外的输入源,以捕捉更精细的动作细节,并计划在实际场景中进行评估,以验证系统的有效性。
关键问题及回答
问题1:在数据预处理阶段,研究团队是如何确保视频和音频数据的同步的?
为了确保视频和音频数据的同步,研究团队让每个参与者在开始操作前拍手三次。拍手的声音峰值被用作视频同步的参考点。具体来说,研究团队使用三脚架固定三台静态摄像机(分别位于床的脚、头和侧面),并使用一台GoPro摄像机捕捉用户的视角。音频录音用于确保音视频数据的同步。通过这种方法,研究团队能够在后续处理中准确地对齐视频和音频数据,从而为后续的视频分类和反馈生成提供可靠的基础。
问题2:研究团队在视频分类方面采取了哪些具体措施来识别手术过程中执行的各个动作?
在视频分类方面,研究团队专注于开发能够精确识别视频中执行的具体步骤的方法。具体措施包括:
-
详细标注指令:根据官方的插管和静脉穿刺协议,研究团队开发了详细的标注指令,这些指令规定了具体的、容易识别的点,用于标记每个动作的开始和结束。
-
帧级别标注:研究团队在视频帧级别上准确标注了每个动作的开始和结束时间。例如,标注“应用止血带”动作的开始和结束,或者“停止触摸止血带”。
-
视频分类模型:研究团队正在精细调整视频分类模型,如S3D,以预测协议步骤对应的标签。这些模型需要通过大量的标注数据进行训练,以确保能够准确识别手术过程中的各个步骤。
通过这些措施,研究团队能够实现对手术过程中各个步骤的精确识别,从而为后续的反馈生成提供可靠的数据支持。
问题3:研究团队计划如何利用智能手表数据来提高反馈系统的准确性和细节?
研究团队计划将智能手表数据作为额外的输入源,以提高反馈系统的准确性和细节。具体方法包括:
-
数据融合:将智能手表采集的IMU数据(包括手部的运动和角度信息)与视频数据进行融合。这将有助于系统更精确地识别每个步骤的执行情况,如针头插入的角度和深度。
-
动作细节评估:通过智能手表数据,系统可以评估每个步骤的执行细节,而不仅仅是步骤顺序。例如,系统可以检测针头插入的角度是否合适,或者是否有足够的时间在进行下一步操作之前进行消毒。
-
模型训练:使用包含智能手表数据的扩展数据集,研究团队将训练新的模型来提高系统的准确性和细节识别能力。这些模型将能够综合考虑视频、音频和IMU数据,提供更全面和精确的反馈。
通过整合智能手表数据,研究团队希望使反馈系统不仅能够识别步骤顺序,还能评估每个步骤的执行细节,从而显著提高培训的效果和质量。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈