全抖音都在说家乡话，两项关键技术助你“听懂”各地方言_如何让人工智能听懂家乡的方言?-CSDN博客

本文链接：https://blog.csdn.net/everydaynews/article/details/133802204

火山引擎技术团队利用自监督学习和大规模预训练技术，解决了方言识别和翻译的难题。在方言识别阶段，通过Efficient Wav2vec技术，实现了低资源方言的高效识别。在方言翻译阶段，采用mRASP和mRASP2模型，利用对比学习和对齐增强方法提升多语言翻译性能。目前，抖音已支持多个方言的自动翻译功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

众所周知，语音识别和机器翻译的模型训练需要大量的训练数据，但方言作为口语流传，可用于模型训练的方言语料数据很少，那么，为这项功能提供技术支持的火山引擎技术团队是如何突破的呢？

国庆期间，抖音上“一句方言证明你是地道家乡人”的活动在吸引了全国各地的网友热情参与，话题最高登上抖音挑战榜第一位，播放量已超过5000万。

这场“各地方言大赏”之所以能火出圈，抖音新上线的地方方言自动翻译功能功不可没。创作者们在用家乡话录制短视频时，使用“自动字幕”功能，选择“转为普通话字幕”，即可完成对视频内容方言语音的自动识别，并将视频里的方言内容转化为普通话字幕，让其他地区的网友也能无痛听懂各种“加密型国语”。有来自福建网友亲测表示，连“十里不同音”的闽南语也能翻译得分毫不差，大呼“闽南语在抖音上为所欲为的日子一去不复返了”。

方言识别阶段

一直以来，火山语音团队都为时下风靡的视频平台提供基于语音识别技术的智能视频字幕解决方案，简单来说就是可以自动将视频中的语音和歌词转化成文字，来辅助视频创作的功能。

在这个过程中，技术团队发现，传统的有监督学习会对人工标注的有监督数据产生严重依赖，尤其在大语种的持续优化以及小语种的冷启动方面。以中文普通话和英语这样的大语种为例，尽管视频平台提供了充足的业务场景语音数据，但有监督数据达到一定规模之后，继续标注的ROI将非常低，必然需要技术人员考虑如何有效利用百万小时级别的无标注数据，来进一步改善大语种语音识别的效果。

相对小众的语言或者方言，由于资源、人力等原因，数据的标注成本高昂。在标注数据极少的情况下（10小时量级），有监督训练的效果非常差，甚至可能无法正常收敛；而采购的数据往往和目标场景不匹配，无法满足业务的需要。

对此，团队采用了以下