众所周知,语音识别和机器翻译的模型训练需要大量的训练数据,但方言作为口语流传,可用于模型训练的方言语料数据很少,那么,为这项功能提供技术支持的火山引擎技术团队是如何突破的呢?
国庆期间,抖音上“一句方言证明你是地道家乡人”的活动在吸引了全国各地的网友热情参与,话题最高登上抖音挑战榜第一位,播放量已超过5000万。
这场“各地方言大赏”之所以能火出圈,抖音新上线的地方方言自动翻译功能功不可没。创作者们在用家乡话录制短视频时,使用“自动字幕”功能,选择“转为普通话字幕”,即可完成对视频内容方言语音的自动识别,并将视频里的方言内容转化为普通话字幕,让其他地区的网友也能无痛听懂各种“加密型国语”。有来自福建网友亲测表示,连“十里不同音”的闽南语也能翻译得分毫不差,大呼“闽南语在抖音上为所欲为的日子一去不复返了”。
众所周知,语音识别和机器翻译的模型训练需要大量的训练数据,但方言作为口语流传,可用于模型训练的方言语料数据很少,那么,为这项功能提供技术支持的火山引擎技术团队是如何突破的呢?