A Unified Model for Cross-Domain and Semi-Supervised Named Entity Recognition in Chinese Social Medi

摘要

中文社交媒体中的命名实体识别(NER)因其非正规性和强噪声性而显得重要而困难。以往的方法只关注领域内的有监督学习,这因为标注数据很少而受到限制。然而,在形式域中有足够的语料库和大量的域内未标注文本可以用来改进任务。我们提出了一个统一的模型,可以从域外和域内未注文本中学习。统一模型包含两个主要功能。一种是跨域学习,另一种是半监督学习。跨域学习功能可以根据领域相似度来学习领域外信息。半监督学习函数可以通过自训练在领域内学习未知信息。在中国社交媒体中,这两种学习功能都优于NER的现有方法。最后,我们的统一模型比之前公布的结果有近11%的绝对改善。

介绍

命名实体识别是自然语言处理中的一项基本任务。对于信息抽取和实体链接等高级应用来说,NER是非常重要和有用的。随着互联网的发展,越来越多的研究聚焦于社交媒体中(Li and Liu 2015;Habib and van Keulen 2015;Cherry and Guo 2015;Peng and Dredze 2016b)。社交媒体中的NER更具挑战性,因为它的非正式性和强烈的噪音。尽管英语方面的努力缩小了社交媒体与正式领域之间的差距(Cherry and Guo 2015),但中国社交媒体的NER仍然十分困难。

NER的任务是识别文本中的名称并分配具有特定类型的名称(Sun等人。2009年;太阳2014年;太阳等。2014年)。中国社交媒体(Peng和Dredze,2015;2016a)的NER以前的工作主要是使用条件随机场(CRF)来处理这个任务。他们使用监督学习,这种学习受到少量注释数据的限制。我们希望使用深度学习方法从域外语料库和域内未注释文本中学习。

我们提出了一个统一的模型来学习域外和域内未注文本。统一模型包含两个功能,一个用于跨域学习,另一个用于半监督学习。我们的模型可以调整每句话在深度学习中的学习率。

对于跨域学习,以前的许多工作都集中在域相似性上(Sun、Kashima和Ueda 2013;Bhatt、Semwal和Roy 2015;Bhatt、Sinha和Roy 2016)。Sun、Kashima和Ueda(2013)提出了一种多任务学习方法,用于从实际数据中自动发现任务关系。该方法通过测量不同任务模型权重的相似度,迭代学习任务相似度。通过收敛性分析,证明了它们具有合理的收敛性。我们的跨域学习功能可以基于域相似性学习域外信息。我们使用域外句子和域内语料库之间的相似度来调整域外语料库中每个句子的学习率。

对于半监督学习,以前的许多工作都集中在预测的信心上(Sarkar 2001;Watson and Briscoe 2007;Yu,Elkaref,and Bohnet 2015;Maeireizo,Litman,and Hwa 2004)。我们设计了一个基于置信度的半监督学习函数,该函数可用于通过自我训练来学习域内未标注信息。

我们在这项工作中的贡献如下:
•我们提出了一个统一的模型,可以从域外语料库和域内未注文本中学习
•我们提出了一个基于置信度的半监督函数,它可以通过自我训练在领域内学习未标注的文本。
•我们提出了一个跨域函数,它可以根据域的相似性来学习域外信息。

背景及相关工作
我们的工作聚焦于中国社交媒体中的跨领域、半监督的学习者。我们简要回顾了中文社交媒体中的跨领域学习和半监督学习。

中文社交媒体中的NER
NER的任务是识别文本中的名称并分配具有特定类型的名称(Sun等人。2009年;太阳2014年;太阳等。2014年)。正如DEFT ERE注释指南[1]所示,有五种实体类型:人员(PER)、头衔(TTL)、组织(ORG)、地缘政治实体(GPE)和地点(LOC)。我们考虑PER、ORG、GPE和LOC。提及是指一个名称(NAM)、名词性短语(NOM)或代词短语(PRO)的单个出现,它们指代或描述单个实体。我们认为NAM和NOM[2]NER的主要方法是将其作为一个序列标记任务。

社交媒体的非正规性和强烈的噪声性使得NER在社交媒体中的应用变得困难。社交媒体文本中有许多缩写和打字错误。此外,汉语缺乏明确的词边界、大写等线索,这些线索有助于解决英语中的NER任务。近年来,网络社交媒体的难度和有效性越来越受到人们的关注。例如,Peng和Dredze(2015)探讨了几种类型的嵌入,并提出了一种嵌入和NER的联合训练模型;Peng和Dredze(2016a)使用分词表示来改进NER。

跨领域学习

跨领域学习方法需要利用领域外的语料库来提高领域内的学习效果。我们需要注意跨域任务有几个原因。首先,很难为每个领域获得足够的手动注释文本,这需要花费大量的时间进行注释。其次,我们可能不知道测试数据的域,因此必须考虑域自适应。然而,在许多NLP任务中,如果我们不设计合适的跨域学习方法,在不同的域上进行测试时,性能会大大下降。幸运的是,有很多开创性的工作。例如,Lui和Baldwin(2011)选择了跨域特性来帮助域自适应;Axelrod、He和Gao(2011)选择了伪域内数据;Wen(2016)选择了多域数据训练。Sun、Kashima和Ueda(2013)使用高斯RBF和多项式核计算任务相似度;Bhatt、Semwal和Roy(2015)使用余弦相似度计算域自适应的相似度。

半监督学习
在许多NLP任务中,注释数据是非常有限的,但是有大量未注释的文本。手工标注需要花费大量的时间,因此探索利用未标注数据的方法非常重要。有许多半监督和非监督模型。例如,自我训练、协同训练和tri训练用于选择最可靠的训练数据。Watson和Briscoe(2007)使用基于自信的自我训练来选择合适的数据;Sarkar(2001)使用两个模型来选择自信的无标签句子;Yu、Elkaref和Bohnet(2015)使用源数据进行训练并从无标签数据中选择高自信数据;Maeireizo、Litman,Hwa(2004)使用了两个分类器来选择最有信心的实例;Kawahara和Uchimoto(2008)评估了预测的可靠性并选择了最可靠的预测。

提案

我们首先建立一个双向长短期记忆神经网络(BiLSTM),并将转换概率与最大边际神经网络(BiLSTM-MMNN)相结合,形成结构化输出。(Hochreiter和Schmidhuber,1997年;Hammerton,2003年;Chen等人。2015年;Taskar等人。2005年;Pei、Ge和Chang 2014年;Huang、Xu和Yu 2015年)然后,我们提出了一个中国社交媒体中跨域和半监督的内质网统一模型。在统一模型之前,我们解释了我们的跨域学习函数和半监督学习函数。

BiLSTM-MMNN
以最大裕度神经网络为基本模型,将转移概率转化为BiLSTM。

Transition Probability:以最大裕度神经网络为基本模型,将过渡概率转化为BiLSTM。最大裕度准则直接关注模型决策边界的稳健性,便于扩展到统一模型。
在这里插入图片描述在这里插入图片描述
字符和位置嵌入 分词是中文文本处理中的重要内容。Peng和Dredze(2015)探讨了中文社交媒体中的三种内隐嵌入:单词、字符和字符位置嵌入。结果表明,字符位置嵌入效果最好。我们在模型中选择字符位置嵌入。对于字符位置嵌入,它基于字符,但也考虑字符在单词中的位置。它需要对单词进行分割以获得单词中的字符位置。
跨域学习函数
由于域内语料库和域外语料库的不同,使得域外语料库的使用变得困难。因此,我们需要识别域外句子和域内语料库的相似性。对于跨域学习,我们直接在域内和域外数据上进行训练。但是我们对不同的域外句子使用不同的学习率。通过相似度函数自动调整学习率。句子的学习率计算如下:
在这里插入图片描述
其中C是一个用于调整相似度大小的实值常数,用于控制高斯RBF函数的方差,是indomain训练数据和句子的矢量表示。在我们的模型中,我们首先使用word2vec(Mikolov和Dean 2013)来训练大量未标注的领域文本,并为每个字符位置获取嵌入。句子向量是句子中字符向量的平均值。语料库向量是语料库中句子向量的平均值。
在这里插入图片描述
半监督学习函数-
手工标注需要花费大量的时间,因此我们需要尝试使用未标注的文本来帮助解决这个问题。有许多半监督的方法,如自我训练,协同训练,三人训练。这些方法的主要目的是在未注文本中选择最有信心的预测。提出了一种基于句子置信度的半监督学习函数。

我们的半监督学习函数基于依赖于决策边界的BiLSTM-MMNN。因此,我们模型的句子置信度是基于决策边界的。我们的预测是得分最高的标签序列,得分需要更大,以达到与其他可能的标签序列的差距。在这里插入图片描述
在等式10中,我们可以知道如果最大值和第二个序列之间的决策裕度更大,我们的预测将更有信心。

我们的半监督学习函数是动态的,因为我们在每层之前计算句子的置信度。因为置信度是基于我们的模型的,所以句子的置信度在不同的时期会有所不同。

在这里插入图片描述
统一模型
在这里插入图片描述

实验

为了验证我们提出的模型的有效性,我们在NER数据集上做了一些实验。我们将在实验中描述数据集、设置和结果的细节。在这里插入图片描述在这里插入图片描述
数据集集合
我们使用与彭和Dredze(2015;2016a)的中国社交媒体做NER。该语料库由新浪微博为NER的标注信息组成。语料库中包含PER、ORG、GPE和LOC,用于命名和命名提及。对于域外数据,我们使用了第六届SIGHAN汉语处理研讨会的MSR语料库。SIGHAN语料库只包含LOC、PER和ORG三种类型的命名提述。我们还使用了与中国新浪微博服务的彭和德雷泽(2016a)相同的未标注文本,文本由中文分词系Jieba5进行分词。

微博NER语料库详情见表2。对于SIGHAN语料库,详细信息见表3。

基线
我们构造了两条基线来与我们提出的统一模型进行比较。第一种是在领域内语料库上训练和测试的BiLSTM-MMNN模型。至于第二个,我们先训练域外数据,然后再训练。为了简单起见,我们使用BiLSTM MMNN、BiLSTM MMNN+所有数据合并来表示这两个基线。

设置
我们使用word2vec(Mikolov和Dean 2013)和跳过程序训练模型对嵌入进行了预训练,没有负采样和其他默认设置。与Mao(2008)一样,我们使用bigram特性如下:
在这里插入图片描述

我们使用窗口方法(Collobert等人。2011)从单词特征向量中提取更高级的特征。我们的模型使用随机梯度下降和2个正则化器进行训练。对于模型中的参数,嵌入窗口尺寸为5,嵌入窗口尺寸、特征嵌入窗口尺寸和隐藏向量窗口尺寸均为100,边际损失折现率为0.2,超参数为0.000001。至于学习率,默认学习率为0.1,衰减率为0.95。在我们的统一模型中,我们将学习率设置为0.05,在+所有数据合并模型中设置为0.003。我们训练了10个阶段,并选择了最佳预测进行测试。
在这里插入图片描述

结果

表1显示了NAM和NOM在精密度、召回率、F1得分方面的NER结果。我们还考虑了微f1分数和词汇外实体(OOV)召回率。我们可以知道,域外数据在OOV召回中有很大帮助。

**跨域学习函数:**对于跨域学习,我们对三个相似函数:交叉熵、高斯RBF核和多项式核进行了实验。对于所有的相似函数,我们设置幅度调整常数为1。对于交叉熵,我们使用三元语言模型。我们将高斯RBF核设为1。对于多项式核,我们尝试不同的值,发现=1在我们的任务中工作得很好。通过比较三个相似函数的结果,我们发现多项式核=1的结果最好。因此我们选择多项式核=1作为跨域学习函数。1

因为SIGHAN只包含命名提及,所以我们的模型在命名提及方面有了很大的改进,但在命名提及方面有所妥协。我们使用后处理将跨域学习函数的结果与基本模型BiLSTM-MMNN相结合。该过程将保持对BiLSTM-MMNN的名义提及次数的预测,然后采用对跨域学习函数的命名提及次数的预测。表4显示了处理前(原始)和处理后的命名和命名提及的F1分数。

半监督学习函数由于未标注文本太多,因此未标注文本中的句子可能与标注的句子有很大的不同。我们首先选择交叉熵相似度最高的句子。为了避免被选中的句子几乎没有实体,我们首先使用基本模型进行测试,并为有/无实体的句子选择相等的比例[4]。

表5:比较跨领域学习和统一模型。我们可以看到我们的跨域模型优于基本模型。

我们用不同数量的未注释句子来测试我们的半监督学习函数。我们发现我们很难使用太多未注释的句子。[5]我们选择注释数据中未注释数据的1、2、3、4、5倍。不同数量未注数据的结果如图1所示,其中NAM表示命名实体,NOM表示名义提及,总体F1得分表示NAM和NOM的micro F1得分。

由于我们需要在每层之前预测未注释的句子,所以我们在半监督学习函数中使用了预先训练好的bilstmmnn参数来初始化参数。

统一模型
由于我们的统一模型使用了SIGHAN语料库,因此在跨域学习功能上也面临同样的问题。它也改善了很多命名提及,但在名义提及妥协。我们使用相同的后置过程将统一模型的结果与半监督学习函数相结合。因为统一模型可以利用域外和未注数据,而半监督学习函数只需要未注数据。我们可以建立基于半监督学习函数预测的统一模型。为了了解统一模型的优点,我们将跨域学习函数和统一模型的原始结果进行了比较,如表5所示。

误差分析

虽然我们的统一模型比之前的工作有更好的表现,但我们仍然需要知道,在中国社交媒体领域,结果要比正式领域低得多。例如,SIGHAN中的NER的最新结果是92.81。微博的结果要比它低得多,所以我们需要做更多的分析来帮助来明白为什么微博的结果这么低。我们还需要知道,为什么我们的模型可以优于以前的工作。
我们设计了六个指标来进行错误分析,如下所示:

•句子长度。
•实体长度。
•五种错误类型:包含[6]、包含[7]、拆分[8]、交叉[9]、无交叉[10]。
•培训数据中的发生次数。
•句子的未知词率。
•实体的未知字率。

BiLSTM-MMNN
通过对基本模型BiLSTM-MMNN的结果分析,发现实体长度、训练数据的出现次数、实体的未知字率对预测有很大影响。我们还发现无交叉误差涵盖了我们预测中的大多数误差。我们在图2中显示了这些分析的细节。

从图2(a),我们可以发现没有错误的预测属于分裂错误类型,这意味着我们的预测是连续的。无交叉错误率为83.55%。所以关注无交叉误差可能是个不错的选择。从图2(b)和图2(c)中,我们可以知道,当实体很长或实体在训练数据中很少出现时,我们的基本模型并不好用。

跨域学习函数
通过比较基本模型和跨域学习函数的结果,我们发现一些改进如下:

•跨域学习函数使无交叉错误大大减少。
•跨域学习功能对于训练数据很少或没有出现的实体有很大的改进。•跨领域学习功能有助于预测单词未知的实体。

通过这些改进,我们可以知道域外可以提供更多关于不在域内数据中的单词和实体的信息。利用域外数据来扩展模型知识是一个很好的选择。我们比较了图3中基本模型和跨域学习函数的结果。

半监督学习函数
通过比较基本模型和半监督学习函数的结果发现,半监督学习函数在某一方面并没有很大的改进,但在整体上有一定的提高。对于半监督学习函数,我们使用自训练的方法为每个未标注的句子分配一个置信度。未注释的句子用于加强我们对注释数据的训练。所以它几乎对每个方面都有帮助,但改善不大。

统一模型
我们的统一模型结合了跨域学习和半监督学习,这两种学习方法都优于两种学习功能。但与SIGHAN的结果相比,结果仍然很低,通过对统一模型结果的分析,我们还需要关注以下几点:

•无交叉错误。
•在培训数据中很少或没有出现的命名或名义提及。
•未知词率高的实体或未知词率高的句子中的实体。
•长实体或长句子中的实体。

结论
我们提出了一个统一的中文社交媒体NER模型。该模型可以从域外和域内未标注文本中学习。在我们的实验中,我们的统一模型优于先前的工作。此外,我们有针对性和详细的误差分析不仅有助于我们了解我们的模型的优点,而且指出了我们需要注意的方面。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值