连续
文本处理
步骤
- 读入文本
- 分词
- 建立词典
- 将文本从词的序列转化为索引的序列,方便输入模型
工具
- spaCy
- NLTK
语言模型
- 语言数据集
- 读取数据集
- 建立字符索引
- 采样
- 随机采样
- 相邻采样
隐含马尔可夫模型(Hidden Markov Models, HMM)
- 模型
- 语音之间的模糊地带
- 基于音素(有限)而非 字(无限)建模
- 组成
{A, B, pi}
A 状态转移矩阵
B 观测概率
pi 状态先验概率 - 三个问题
- 识别问题
- 求状态序列
- 训练问题
循环神经网络(Recurrent Neural Networks, RNN)
t时刻的状态,与t-1时刻的输入有关
ht = fw(ht-1, xt)
其中,ht为t时刻的状态,xt为t时刻的输入,fw与t无关
若fw为三层神经网络,且状态数有限,则RNN可模拟GMM-HMM