NLP汇报讲义

小组介绍以及汇报主题

各位老师好,我们是第十二小组。所选的汇报的主题是情感分析,分别选取了四篇论文,以第一篇论文《Modelling Context and Syntactical Features for Aspect-based Sentiment Analysis》作为汇报的主题,我们组的汇报内容分为6部分。

论文摘要

首先是论文摘要,在这篇文章中,情感分析意思可以理解为消费者在产品评论中表达的情感过程。而这个过程的分析分为两个概念的任务,即Aspect Extraction(AE),和Aspect Sentiment Classification,作者在对Aspect抽取(AE)和Aspect Sentiment Classification(ASC)进行了独立的研究。基于AE任务,作者结合了roberta、词法之间的信息和句法之间的信息;在ASC任务中,作者研究了如何在预训练语言中更好地结合句子和属性词。

数据集

在本篇论文中,使用到了

原理分析

CSAE

首先,前面说到了AE,再本文中,作者将结合语法信息的AE任务称为CSAE(contextualized syntax-based AE)。如在PPT左侧的框架中所见,该框架具有两个特点,第一个特点是通用的性质,该框架不是针对某个特定领域而设计的,而是一个通用的模型。第二个特点是,句子的表示由三部分构成,分别是句法信息得到的表示、词法信息得到的表示和BERT的输出。在框架中嵌入了这三方面的内容,得到句子的表示后,通过一个全连接层来预测相应的BIO字标注。(BIO字标注解释)。
补充两点,首先啥是BERT呢?(BERT解释)。BERT是一种预训练语言表示的方法,这意味着我们在大型文本语料库(例如Wikipedia)上训练通用的“语言理解”模型,然后将该模型用于我们关心的下游NLP任务,BERT优于之前的方法,因为它是第一个用于预训练NLP的无监督,深度双向系统。
第二点,啥是BIO标注呢? BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。 比如,我们将 X 表示为名词短语(Noun Phrase, NP),则BIO的三个标记为:

(1)B-NP:名词短语的开头

(2)I-NP:名词短语的中间

(3)O:不是名词短语
接下去,分别介绍如何编码词法信息和句法信息。
词法信息得到的表示
首先是词法之间的信息,为了得到这个信息,需要借助一个概念流程:“词性的嵌入”,其步骤如下:先借助词法分析的工具来得到句子对应的词性标签序列,得到一个输入序列的词性POS矩阵P,之后,通过嵌入矩阵将词性转化为向量,最后,通过自注意力机制来观察词性向量, 建模词性间的依赖关系。这里需要注意两个点,一个是向量的构建方法,是通过TD-LSTM模型来实现,该模型将上下文词和目标词嵌入到向量空间中,并使用LSTM房源对输出序列中的长距离关系进行编码,下面是TD-LSTM(TD-LSTM模型)的原理,…的…的…的…的…的…另一个点是self-attention自注意力机制(自注意力机制)… 的…的…的…的…的…
句法信息得到的表示
得到句法之间的信息,需要使用一个概念:“基于依赖关系的嵌入”。此工作任务部分是根据句法关系来确定上下文,作者将这种上下文称为Dependency-Based Contexts。具体来说,其步骤,首先是对给定句子进行句法解析,得到句法解析树,然后将其中的介词和关系进行合并,于是一个单词的Dependency-Based Contexts即为在树中该词的相邻节点和关系。依赖注入(基于依赖关系的嵌入)待补充

后续工作

在完成了前三个步骤的操作任务,后续任务就是全连接和微调,全连接层的的作用就是结合前三部分的数据关系,提取出输入句子中的aspect terms.而微调的作用是通过L2正则化使用交叉熵损失最小化. 最终的结果是针对输入的句子会有明确的边界划分的aspect terms.例如,食品质量,通过该模型分析后,会将食品质量最为整体,而不是拆分开来食品和质量两个词.

情感分类器ASC

需要补充,情感分类器待介绍

后续工作

与AE部分的自注意力机制一样,需要根据全局上下文和局部上下文的结果,重新整理上下文句子间的依赖关系.在ASC任务的操作中多了一步汇聚,根据[CLS]中的隐藏状态,将自注意力机制的结果汇聚.最后与CSAE的全连接层+微调的操作一样,ASC通过全连接层,来学习与分析上下文之间的关系,利用L2正则化的交叉熵损失作为损失函数来微调整个ASC深度学习模型.最终获得情感分类结果,结果为{正面\负面\中性}三种情况之一.

结果分析

这一部分将分三部分来进行分析.

Aspect提取结果
如PPT结果所示,(对图中的数据进行标红处理)

Aspect Sentiment Classification 结果
分类的结果可以看到,(同样,对图中数据进行标记处理,方面查看)

SRD

总结

最后,做一个总结,本篇文章提出的一个端到端的ABSA解决方案。经过实验表明,利用句子的句法信息构建的模型,效果更好。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值