技术特征:
1.一种标点符号的添加方法,其特征在于,包括:
对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;
将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合,生成所述汉字的输入特征;
将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率,所述汉字后每种标点符号的添加结果对应的概率包括:所述汉字后不加标点符号的概率,以及所述汉字后加每种标点符号的概率;
根据概率最高的添加结果在所述汉字后添加标点符号。
2.根据权利要求1所述的方法,其特征在于,所述对待识别文本中的每个汉字进行编码包括:
利用预先统计的字典,对待识别文本中的每个汉字进行编码。
3.根据权利要求1所述的方法,其特征在于,所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息包括:所述汉字的从前至后和从后至前两个方向整句文本的上下文信息,所述上下文信息包括所述汉字所属的句子成分、所述汉字在句子中的位置、所述汉字的上下文文本中各分词的分词属性和所述汉字的上下文文本的语义信息。
4.根据权利要求1所述的方法,其特征在于,所述将所述汉字的输入特征输入深层神经网络模型之前,还包括:
对训练语句中的每个汉字进行编码,作为输入特征;
将所述训练语句中所述汉字后的标点符号的添加结果进行编码,作为输出特征;
通过所述输入特征和所述输出特征对深层神经网络模型进行训练,当所述深层神经网络模型的输出结果与所述输出特征误差最小时,获得训练好的深层神经网络模型。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述对待识别文本中的每个汉字进行编码之前,还包括:
对用户输入的语音进行识别,获得待识别文本,所述待识别文本中包括所述语音的间隔信息;
所述根据概率最高的添加结果在所述汉字后添加标点符号之后,还包括:
对所述语音的间隔信息对应的每个语音间隔添加标点符号的情况进行检测;
在尚未添加标点符号的语音间隔添加标点符号。
6.一种标点符号的添加装置,其特征在于,包括:
生成模块,用于对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;以及将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合,生成所述汉字的输入特征;
获得模块,用于将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率,所述汉字后每种标点符号的添加结果对应的概率包括:所述汉字后不加标点符号的概率,以及所述汉字后加每种标点符号的概率;
添加模块,用于根据概率最高的添加结果在所述汉字后添加标点符号。
7.根据权利要求6所述的装置,其特征在于,
所述生成模块,具体用于利用预先统计的字典,对待识别文本中的每个汉字进行编码。
8.根据权利要求6所述的装置,其特征在于,所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息包括:所述汉字的从前至后和从后至前两个方向整句文本的上下文信息,所述上下文信息包括所述汉字所属的句子成分、所述汉字在句子中的位置、所述汉字的上下文文本中各分词的分词属性和所述汉字的上下文文本的语义信息。
9.根据权利要求6所述的装置,其特征在于,还包括:
训练模块,用于对训练语句中的每个汉字进行编码,作为输入特征;将所述训练语句中所述汉字后的标点符号的添加结果进行编码,作为输出特征;通过所述输入特征和所述输出特征对深层神经网络模型进行训练,当所述深层神经网络模型的输出结果与所述输出特征误差最小时,获得训练好的深层神经网络模型。
10.根据权利要求6-9任意一项所述的装置,其特征在于,还包括:
识别模块,用于对用户输入的语音进行识别,获得待识别文本,所述待识别文本中包括所述语音的间隔信息;
检测模块,用于在所述添加模块根据概率最高的添加结果在所述汉字后添加标点符号之后,对所述语音的间隔信息对应的每个语音间隔添加标点符号的情况进行检测;
所述添加模块,还用于在尚未添加标点符号的语音间隔添加标点符号。
11.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一所述的方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。