1、语音识别的基本架构
W∗=arg maxwP(W|Y)=arg maxwP(Y|W)P(W)P(Y)≈P(Y|W)P(W)
W
∗
=
a
r
g
m
a
x
w
P
(
W
|
Y
)
=
a
r
g
m
a
x
w
P
(
Y
|
W
)
P
(
W
)
P
(
Y
)
≈
P
(
Y
|
W
)
P
(
W
)
上式中W表示文字序列,Y表示语音输入。公式1表示语音识别的目标是在给定语音输入的情况下,找到可能性最大的文字序列。根据Baye′ Rule,可以得到公式2,其中分母表示出现这条语音的概率,它相比于求解的文字序列没有参数关系,可以在求解时忽略,进而得到公式3。公式3中第一部分表示给定一个文字序列出现这条音频的概率,它就是语音识别中的声学模型;第二部分表示出现这个文字序列的概率,它就是语音识别中的语言模型。
上
式
中
W
表
示
文
字
序
列
,
Y
表
示
语
音
输
入
。
公
式
1
表
示
语
音
识
别
的
目
标
是
在
给
定
语
音
输
入
的
情
况
下
,
找
到
可
能
性
最
大
的
文
字
序
列
。
根
据
B
a
y
e
′
R
u
l
e
,
可
以
得
到
公
式
2
,
其
中
分
母
表
示
出
现
这
条
语
音
的
概
率
,
它
相
比
于
求
解
的
文
字
序
列
没
有
参
数
关
系
,
可
以
在
求
解
时
忽
略
,
进
而
得
到
公
式
3
。
公
式
3
中
第
一
部
分
表
示
给
定
一
个
文
字
序
列
出
现
这
条
音
频
的
概
率
,
它
就
是
语
音
识
别
中
的
声
学
模
型
;
第
二
部
分
表
示
出
现
这
个
文
字
序
列
的
概
率
,
它
就
是
语
音
识
别
中
的
语
言
模
型
。