通过语音预测自杀风险：多模态大语言模型的新进展_“精神健康大语言模型”:利用大语言模型通过在线文本数据进行精神健康预测-CSDN博客

本文链接：https://blog.csdn.net/python12345_/article/details/140530206

据世界卫生组织数据统计，每年因自杀而死亡的人数超过70万，是15至29岁人群的第四大死亡原因。因此，实施精准的自杀危机筛查与监测至关重要，可以有效预防自杀的发生。

清华大学万科公共卫生与健康学院陈润森团队与清华大学电子工程系张超团队联合开展了一项创新研究，通过整合参与者的文本和音频数据，首次实现了基于大语言模型的有效自杀风险预测。研究发表于由国际语音通讯协会（International Speech Communication Association, ISCA）主办的语音科学与技术领域的国际会议INTERSPEECH 2024，文章共同第一作者为张超团队本科生崔紫云和陈润森团队博士生雷畅，共同通讯作者为陈润森和张超。

研究背景

近年来，语音技术和人工智能大模型在精神疾病诊疗领域展现出巨大的应用潜力。随着语音分析技术的不断进步，研究人员能够通过分析参与者的语音特征，如语调、语速、情绪表达和语言内容等，来推断个体的心理和情绪状态。目前对于学校青少年如何筛查自杀风险存在许多困难，传统的自杀风险识别方法通常依赖于问卷调查和临床访谈，但容易出现被测者自我报告偏差的情况，这导致潜在的风险难以被及时发现。因此，亟待开发更客观和精准的筛查工具。本研究通过整合文本和音频数据，基于青少年大样本人群，开发了用于自杀风险筛查的多模态大模型，从而提供了有效的技术支持和解决方案。

研究方法

研究团队采集了来自超过40所中小学，年龄范围为10-18岁的中国青少年。采用儿童版简明国际神经精神访谈（MINI-KID）对参与研究的青少年进行自杀风险评估，筛查出631名存在潜在的自杀风险参与者，与548名无自杀风险的参与者共同完成了语音任务测试。本研究通过收集参与者自我介绍时自发产生的语音（通常长为30秒到1分钟），提取出了文本模态信息（通过语音识别得到的文本内容）和音频模态信息（包括语音的韵律和发音等）。接着，采用研究团队自主开发的能够同时处理文本和音频信息的多模态大语言模型进行综合分析，从而显著提升了自杀风险预测的准确性。

具体的系统流程如图1所示。系统包含音频和文本两个分支，音频分支中，使用语音模型提取声学特征；文本分支中，首先使用有15亿参数的Whisper-Large-v3语音识别大模型识别出语音对应的文本内容，然后利用文本模型提取文本特征。完成特征提取后，系统将语音和文本两种模态融合，用于自杀风险的检测。具体而言，研究尝试了具有70亿参数的百川2（Baichuan2-7B）和有70亿参数的千问1.5（Qwen1.5-7B）大语言模型（LLM）在文本模型方面的应用。

图1模型总体结构

本研究尝试了两种不同的模型结构，如图2所示，分别是拼接融合（CC）和上下文融合（IC）。在拼接融合中，分别使用语音模型和文本模型进行特征提取，提取的特征经过时序池化后进行拼接，将拼接后的特征用于分类。在上下文融合中，使用Whisper-Large-v3模型得到语音特征后，将其通过一个全连接层映射到LLM的隐藏空间中，将其与文本embedding进行拼接，使用LLM解码器同时处理音频和文本embedding，后接分类层用于分类。

图2 两种不同融合方法的模型结构

研究结果

本研究使用MINI-KID访谈的结果作为预测目标，表1中列出了不同模型和融合方式的在测试集上的自杀风险二分类结果，Whisper-Large-v3模型和Baichuan2-7B模型通过拼接融合达到了单系统的最佳结果。表2中列出了多个系统集成的结果，使用不同系统进行投票，可以得到的最高准确率为0.807、最高F1分数为0.846。

表1 不同模型、不同融合方式的结果

表2 系统集成结果

研究结果显示，本研究提出的多模态大语言模型在自杀风险预测上表现出了较高的可靠性和准确性。模型的预测结果与临床访谈结果高度一致，证明了其在实际应用中的有效性。

总结与展望

本研究通过采集参与者在任务设置下自发产生的语音数据，利用多模态大数据模型融合文本和音频信息，为精准预测自杀风险开辟了新的可能性。未来，研究团队将进一步扩展数据规模和应用场景，以进一步提升模型的泛化能力和普适性，推动多模态大语言模型在自杀风险预测中的应用。

如何学习大模型

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。