清华团队研发脑启发AI模型,为感知信息处理提供全新范例

6fdbf351be07a849eac934f1b81fbc74.jpeg

来源:脑机接口社区

运营/排版:何晨龙

人类天生具有分离各种音频信号的能力,比如区分不同的说话者的声音、或将声音与背景噪音区分开来。这种天生的能力被称为“鸡尾酒会效应”。

中枢听觉系统通过分析声音流中的模式的统计结构(例如频谱或包络),可以轻松地在混合的声音中识别特定的目标声音。

在 AI 领域,设计与人类一样强大的语音分离系统长期以来一直是一个重要目标。

先前的神经科学研究提示:人类大脑经常利用视觉信息来帮助听觉系统解决 “鸡尾酒会问题”。

受到这一发现的启发,视觉信息被纳入进来以改善语音分离质量,由此产生的方法被称为多模态语音分离方法。

如果系统能够捕捉到唇部运动,这一额外线索将有助于语音处理,因为它在嘈杂环境中补充了语音信号的信息丢失。

然而,现有的多模态语音分离方法的分离能力仍远远不及人类大脑。

基于此,清华大学生物医学工程学院苑克鑫教授团队打造了一款脑启发 AI 模型(CTCNet,cortico-thalamo-cortical neural network)。

be66f7d2b1113a2521342f8b5ec2c9a6.jpeg

图 | 苑克鑫(来源:苑克鑫)

该模型的语音分离性能大幅领先于现有方法,不仅为计算机感知信息处理提供了新的脑启发范例,而且在智能助手、自动驾驶等领域有潜力发挥重要作用。

苑克鑫表示:“CTCNet 是在皮层-丘脑-皮层环路和 A-FRCNN 基础上的结果。”

近些年,苑克鑫课题组针对高级听觉丘脑及其皮层联接的架构和生理学特性进行了系统性研究。

在此基础上,结合清华大学计算机系胡晓林教授课题组之前的语音分离应用算法,他们提出了一种多模态语音分离方案。

然后,使用公开数据集进行了一系列的语音分离测试和调参,最终才得到了具有优异语音分离性能的 CTCNet。

8d398f98729a155e81d06880f2017578.jpeg

(来源:TPAMI)

因此,本次研究是在机制研究的基础上引发的应用研究。

“总体而言,这是一个双向奔赴的合作过程。作为一名 AI 研究者,也许可以通过阅读脑科学领域的文献来获得灵感,但与脑科学研究者的直接沟通一定是最为高效。”苑克鑫说。

他继续表示,在没有相应知识的情况下,AI 研究者通过阅读文献来理解大脑的工作原理是有一定困难的。

而作为脑科学研究者,应该有将研究成果向 AI 领域转化的意识和意向,主动与 AI 领域的研究者接触、讨论,这样才有可能碰撞出火花。

事实上,AI 研究者在没有脑科学知识的情况下,已经在试图模拟大脑的部分功能,只不过脑科学研究者并不知道。

通过接触和了解,脑科学研究者就有机会将其研究成果迁移至 AI 研究者已经开展的脑功能模拟的尝试中,从而助力于开展真正有效的脑启发 AI 研究。

苑克鑫表示:“通过本次研究,我深切体会到了神经科学与 AI 领域的研究人员之间加强交流,对于有效开展脑启发 AI 相关工作的重要性。”

6afc19bc592a4ddfe9a3de557459c503.jpeg

图 | 胡晓林(来源:百度百科)

据了解,苑克鑫与胡晓林都同时是清华大学与大脑研究相关的三个中心的兼职研究员,因此经常有机会互相听对方的工作报告,这成为了他们发起合作的契机。

另外,由于神经科学与 AI 是两个截然不同的学科,合作的成功离不开双方团队成员的密切交流。

虽然在交流过程中经常出现词同意不同的情况,甚至出现互相听不懂对方在说什么的情况,但是双方都有足够的耐心去理解对方措辞的内涵,这成为了最终合作成功的重要保障。

最终,相关论文以《由皮层-丘脑-皮层环路启发的视听语音分离模型》(An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits)为题发在 Transactions on Pattern Analysis and Machine Intelligence(TPAMI)[1]。

胡晓林团队的硕士生李凯是第一作者,苑克鑫团队的博士后谢凤华、以及胡晓林团队的博士生陈航分别是第二作者和第三作者,苑克鑫和胡晓林担任共同通讯作者。

10885c6eb9d0e05ded50f3bc17043433.jpeg

图 | 相关论文(来源:TPAMI)

下一步:

首先,他们将解析在单丘脑神经元水平上视、听觉信息的空间和时间整合模式,希望能够借助于该模式实现对 AI 模型的升级,进一步提高模型的语音分离性能,使其能够应对更加复杂的自然场景;

其次,他们将探索该模型在其他应用场景,如探索在噪音背景下的医学信号检测中的应用潜力;

最后,他们将解析在中枢感觉系统中处于更低层级脑区,如中脑中的多模态神经元的解剖、功能联接架构,进而探索这些联接架构启发 AI 模型构建的潜力。

预计拟构建的一系列 AI 模型,将能逆向揭示不同多模态感觉核团、及其中的神经元,在中枢感觉信息处理中可能扮演的重要角色和工作机制。

参考资料:

1.K. Li, F. Xie, H. Chen, K. Yuan and X. Hu, "An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits" in IEEE Transactions on Pattern Analysis & Machine Intelligence, vol. , no. 01, pp. 1-15, 5555.

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

f6e95e5e8ef0258cf542fec8da04d830.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
清华大学AI模型课程是清华大学计算机科学与技术系推出的一门专业课程。该课程主要涉及大规模深度学习模型的设计与实现。 首先,课程介绍了近几年在计算机视觉、自然语言处理和语音识别等领域取得的突破性进展,以及这些进展背后所使用的大规模深度学习模型。学生将了解到这些模型背后的原理、架构和训练方法。 其次,课程讲解了如何有效设计和实现大规模深度学习模型。老师会介绍深度学习框架以及如何在这些框架上进行模型的开发和训练。学生将学习到如何进行模型的调参、优化和速度提升等技巧。 第三,课程通过案例分析和实践项目的方式,帮助学生更好地理解和掌握大规模深度学习模型的应用。学生将在实践中学习到如何解决真实生活中的问题,并对模型进行改进和优化。 最后,课程还将涉及到模型的迁移学习和多模态学习等前沿研究领域。学生将了解到当前最新的研究进展,并有机会进行相关的探索和实践。 总的来说,清华大学AI模型课程旨在培养学生在大规模深度学习模型设计和实现方面的能力。通过理论教学和实践项目,学生将能够掌握深度学习模型的原理、设计和优化方法,并在实际应用中运用所学知识解决实际问题。这门课程对于培养学生在人工智能领域的技术能力和创新思维具有重要意义。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值