ACM MM 2024 奖项揭晓:中国学者荣获最佳论文奖

会议之眼 快讯:ACM Multimedia 2024是由美国计算机协会主办的国际多媒体领域学术和产业界交流的顶级盛会,也是中国计算机学会(CCF)推荐的A类会议。专注于多媒体技术领域的最新研究成果、技术创新和行业趋势。会议涵盖了多媒体内容的创建、处理、传输和交互等多个方面,旨在促进学术界和工业界在多媒体技术应用和产品开发方面的交流与合作。

近日,第32届ACM国际多媒体会议(ACM Multimedia)于2024年11月1日在澳大利亚墨尔本圆满落幕。让我们一起回顾现场的精彩瞬间。b7827705f9783b467e7a9b30a2e53819.jpeg

大会实况

会议议程紧凑而丰富,涵盖了多媒体技术领域的多个关键议题。会议举办了多场主题演讲、研讨会、技术教程等活动,深入探讨了机器学习与人工智能多语言处理云计算与虚拟化等前沿话题。


b9575a38c1824c3891e42c69dcfd96b8.jpeg
d61cfed5db961278e5f47858697d1d45.jpegc6090a8f914e94d1c8762bd073f38cfa.jpeg

最佳论文奖

本次会议共有4385篇投稿进入审稿阶段,最终1149篇论文被接受,录用率是26.20%。在这些录用论文中,有26篇论文被提名为ACM MM 2024最佳论文。其中,由杭州电子科技大学、中国科学院计算所、杭州电子科技大学丽水研究院、澳大利亚阿德莱德大学和麦考瑞大学合作的论文《从说话者到配音演员:基于韵律和时长一致性学习的电影配音》荣获ACM Multimedia 2024最佳论文奖。c48f3cfde53ef918a1ff19122ce64885.jpeg

论文摘要

电影配音的目标是将剧本转换为在时间和情感上与给定电影剪辑相匹配的语音,同时保留简短参考音频的人声特色。配音语音必须表现出情感、节奏和环境的巨大变化,以实现真正的一致性,这使得配音成为一项复杂的任务。考虑到电影配音数据集规模有限(由于版权问题)和背景噪声的干扰,直接从电影配音数据集中学习限制了学习模型的发音质量。为了解决这个问题,我们提出了一种两阶段的配音方法,让模型先学习发音知识,然后再进行电影配音练习。在第一阶段,我们引入了一种多任务方法,在大规模文本语音语料库上预训练音素编码器,以学习清晰自然的音素发音。在第二阶段,我们设计了一个韵律一致性学习模块,将情感表达与音素级别的配音韵律属性(音高和能量)联系起来。最后,我们设计了一个时长一致性推理模块,使配音时长与嘴唇运动保持一致。广泛的实验表明,我们的方法在两个主要基准上优于几种最先进的方法。6882e870293c92d409d44fa45aea1974.jpeg

结语

随着ACM Multimedia 2024的圆满结束,我们见证了多媒体技术领域的又一次飞跃。中国学者的卓越表现不仅展示了国内科研实力的快速提升,也为全球多媒体技术的发展贡献了宝贵的智慧。让我们期待未来,随着技术的不断进步,多媒体世界将变得更加丰富多彩。同时,我们也期待中国学者在下一次的国际学术舞台上再创辉煌!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值