bio和bieos哪个标注模式好_自然语言处理中的序列标注方法、装置、设备及存储介质与流程...

本申请涉及自然语言处理技术领域,特别涉及一种自然语言处理中的序列标注方法、装置、设备及存储介质。

背景技术:

序列标注是解决自然语言处理问题时经常遇到的基本问题之一。而隐变量条件随机场模型是序列标注常用的模型。

在相关技术中,隐变量条件随机场模型以某一种编码模式为隐变量,在对输入的文本序列进行序列标注时,隐变量条件随机场模型将对应的编码模式的各个标签分配给输入的文本序列中的每一个文本元素,从而实现对文本序列中的文本元素的标注。

然而,通过隐变量条件随机场模型对文本序列进行序列标注时,不同的编码模式对不同的文本序列的标注效果有所差别,比如,某一种编码模式对文本序列1的标注效果较好,而对文本序列2的标注效果则可能较差,从而导致隐变量条件随机场模型的普适性较差,影响标注效果。

技术实现要素:

本申请实施例提供了一种自然语言处理中的序列标注方法、装置、设备及存储介质,可以提高通过隐变量条件随机场模型对文本序列进行标注的准确性,该技术方案如下:

一方面,提供了一种自然语言处理中的序列标注方法,所述方法包括:

获取文本序列,所述文本序列中包含n个文本元素,n为大于或者等于2的整数;

将所述文本序列输入序列标注模型,获得所述序列标注模型输出的目标路径,所述序列标注模型是根据文本序列样本和标注序列样本进行训练获得的,所述标注序列样本是所述文本序列样本按照m种编码模式进行编码获得的标注序列,m为大于或者等于2的整数;所述目标路径中的每一个节点是预设标签集中的一个标签,所述预设标签集中包含所述m种编码模式对应的各个标签;

将所述目标路径中的各个节点按照在所述目标路径中从先到后的顺序排列,获得所述文本序列对应的标注序列。

另一方面,提供了一种序列标注模型训练方法,所述方法包括:

获取文本序列样本;

按照m种编码模式对所述文本序列样本进行编码,获得标注序列样本,m为大于或者等于2的整数;

根据所述文本序列样本和所述标注序列样本进行训练,获得序列标注模型,所述序列标注模型用于根据输入的文本序列输出目标路径,所述目标路径中的每一个节点是预设标签集中的一个标签,所述预设标签集中包含所述m种编码模式对应的各个标签。

另一方面,提供了一种自然语言处理中的序列标注装置,所述装置包括:

文本序列获取模块,用于获取文本序列,所述文本序列中包含n个文本元素,n为大于或者等于2的整数;

路径获得模块,用于将所述文本序列输入序列标注模型,获得所述序列标注模型输出的目标路径,所述序列标注模型是根据文本序列样本和标注序列样本进行训练获得的,所述标注序列样本是所述文本序列样本按照m种编码模式进行编码获得的标注序列,m为大于或者等于2的整数;所述目标路径中的每一个节点是预设标签集中的一个标签,所述预设标签集中包含所述m种编码模式对应的各个标签;

标注序列获得模块,用于将所述目标路径中的各个节点按照在所述目标路径中从先到后的顺序排列,获得所述文本序列对应的标注序列。

可选的,所述路径获得模块,具体用于,

将所述文本序列输入序列标注模型,获得所述序列标注模型输出的各个备选标签路径的概率值,所述概率值表示所述文本序列的实际标签路径是对应的备选标签路径的概率;

将所述各个备选标签路径中概率值最大的路径获取为所述目标路径。

可选的,所述各个备选标签路径中的任一路径是从第一标签矩阵的第一列中的一个标签开始,依次经过所述第一标签矩阵的每一列标签中的一个标签的路径;所述第一标签矩阵包含n列标签,且所述n列标签中的每一列标签包含所述m种编码模式对应的各个标签。

可选的,所述装置还包括:

第一样本获取模块,用于在所述路径获得模块将所述文本序列输入序列标注模型,获得所述序列标注模型输出的目标路径之前,获取所述标注序列样本的各个第一子序列样本,所述第一子序列样本中的第一标签是第一文本元素对应的m个标签中的任意标签;所述第一标签是所述第一子序列样本中的任意标签,所述第一文本元素是所述第一标签对应在所述文本序列样本中的文本元素,所述第一文本元素对应的m个标签是所述第一文本元素分别按照所述m种编码模式进行编码时对应的标签;

第一训练模块,用于根据所述文本序列样本以及所述各个第一子序列样本进行训练,获得所述序列标注模型。

可选的,所述各个备选标签路径中的任一路径是从第二标签矩阵的第一列中的一个标签开始,依次经过所述第二标签矩阵的每一列标签中的一个标签的路径;所述第二标签矩阵是与所述m种编码模式一一对应的m个标签子矩阵中的一个,所述标签子矩阵中包含n列标签,且所述n列标签中的每一列标签包含对应的一种编码模式的各个标签。

可选的,所述装置还包括:

第二样本获取模块,用于在所述路径获得模块将所述文本序列输入序列标注模型,获得所述序列标注模型输出的目标路径之前,获取所述标注序列样本的m个第二子序列样本,每个所述第二子序列样本是所述文本序列样本按照所述m种编码模式中的一种编码模式进行编码获得的标注序列;

第二训练模块,用于根据所述文本序列样本以及所述m个第二子序列样本进行训练,获得所述序列标注模型。

可选的,所述m种编码模式包括BIO编码模式和BILOU编码模式。

可选的,所述序列标注模型是隐变量条件随机场模型。

另一方面,提供了一种序列标注模型训练装置,其特征在于,所述装置包括:

文本序列样本获取模块,用于获取文本序列样本;

标注序列样本获取模块,用于按照m种编码模式对所述文本序列样本进行编码,获得标注序列样本,m为大于或者等于2的整数;

训练模块,用于根据所述文本序列样本和所述标注序列样本进行训练,获得序列标注模型,所述序列标注模型用于根据输入的文本序列输出目标路径,所述目标路径中的每一个节点是预设标签集中的一个标签,所述预设标签集中包含所述m种编码模式对应的各个标签。

可选的,所述标注序列样本获取模块,具体用于,

获取所述标注序列样本的各个第一子序列样本,所述第一子序列样本中的第一标签是第一文本元素对应的m个标签中的任意标签;所述第一标签是所述第一子序列样本中的任意标签,所述第一文本元素是所述第一标签对应在所述文本序列样本中的文本元素,所述第一文本元素对应的m个标签是所述第一文本元素分别按照所述m种编码模式进行编码时对应的标签;

将每个所述第一子序列样本获取为所述文本序列样本对应的一个所述标注序列样本。

可选的,所述标注序列样本获取模块,具体用于,

获取所述标注序列样本的m个第二子序列样本,每个所述第二子序列样本是所述文本序列样本按照所述m种编码模式中的一种编码模式进行编码获得的标注序列;

将每个所述第二子序列样本获取为所述文本序列样本对应的一个所述标注序列样本。

另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的自然语言处理中的序列标注方法或者序列标注模型训练方法。

又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的自然语言处理中的序列标注方法或者序列标注模型训练方法。

本申请提供的技术方案可以包括以下有益效果:

根据多种编码模式对文本序列样本编码的结果进行训练获得序列标注模型,并通过该序列模型标签对输入的文本序列进行处理,输出该文本序列对应的标注序列,该标注序列中的每个标签可以是多种编码模式对应的各个标签中的一种标签,使得文本序列的标注不局限于单个编码模式,也就是说,序列标注模型可以在标注过程中为输入的文本序列自动选择编码模式,从而提高了序列标注模型对不同输入的普适性,提高序列标注的效果。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

图1是本申请涉及的两种编码模式的编码示意图;

图2是根据一示例性实施例示出的一种自然语言处理中的序列标注方法的流程图;

图3是图2所示实施例涉及的模型训练和标注过程示意图;

图4是根据一示例性实施例示出的一种序列标注模型训练方法的流程图;

图5是根据一示例性实施例示出的一种自然语言处理中的序列标注方法的流程图;

图6是图5所示实施例涉及的一种条件随机场示意图;

图7是图5所示实施例涉及的一种模型训练示意图;

图8是根据一示例性实施例示出的一种自然语言处理中的序列标注方法的流程图;

图9是图8所示实施例涉及的一种条件随机场示意图;

图10是根据一示例性实施例示出的自然语言处理中的序列标注装置的结构方框图;

图11是根据一示例性实施例示出的序列标注模型训练装置的结构方框图;

图12是根据一示例性实施例示出的一种计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

自然语言处理技术是用于处理语音、文本类数据的一类技术方法的总称。其中,序列标注是自然语言处理技术中的一项重要环节,序列标注的效果将直接影响自然语言处理的准确性。本申请提出一种序列标注方法,能够有效的提高序列标注的效果。

在对本申请所示的各个实施例进行说明之前,首先对本申请涉及到的几个概念进行介绍:

1)序列标注

在本申请中,序列标注是指在自然语言处理过程中将预设的语义标签分配给输入的文本序列中的每个文本元素的任务。

其中,按照自然语言处理的具体任务的不同,上述文本元素可以是一个词组,也可以是一个字符。比如,当自然语言处理的具体任务是对文本序列进行分词时,上述文本序列中的每个文本元素可以是一个字母或者一个汉字等;当上述自然语言处理的具体任务是对文本序列进行信息提取时,上述文本序列中的每个文本元素可以是一个英文单词或者一个汉字词组等。

2)条件随机场

条件随机场(conditiona

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值