来源:Interspeech2020
单位:中科大,快手
基本思路:使用强制对齐扩充多音字消歧数据,同时引入基于phoneme的语言模型(由扩充的数据的拼音序列训练得到),在训练时进行浅融合(shallow fusion)。
网络结构如图,核心部分有三个:
1、Distantly supervised data generation module
应用语音识别中的强制对齐,给定语音的字符集的文本及音频,得到对齐的拼音序列。
2、Character-phoneme transformation module
将字符转换成拼音,尝试了3种结构分别为LSTM、transformer、CNN,从后续贴出的结果来看,深层的CNN效果最好。
3、Reranking module
训练了一个基于拼音的transformer语言模型,最终的loss由两部分组成:
log
p
(
y
∣
x
)
+
λ
log
p
(
y
)
\log p(y \mid x)+\lambda \log p(y)
logp(y∣x)+λlogp(y)
log
p
(
y
∣
x
)
\log p(y \mid x)
logp(y∣x)是常规的 seq2seq 对数似然,
λ
log
p
(
y
)
\lambda \log p(y)
λlogp(y)表示语言模型得分,其中
λ
\lambda
λ是融合系数。
08-01
572
![](https://csdnimg.cn/release/blogv2/dist/pc/img/readCountBlack.png)
02-27
1583
![](https://csdnimg.cn/release/blogv2/dist/pc/img/readCountBlack.png)
04-27
08-01
586
![](https://csdnimg.cn/release/blogv2/dist/pc/img/readCountBlack.png)
03-26
928
![](https://csdnimg.cn/release/blogv2/dist/pc/img/readCountBlack.png)
01-04
2537
![](https://csdnimg.cn/release/blogv2/dist/pc/img/readCountBlack.png)
“相关推荐”对你有帮助么?
-
非常没帮助
-
没帮助
-
一般
-
有帮助
-
非常有帮助
提交