NLP汇报讲义

最新推荐文章于 2022-11-04 10:12:38 发布

duoluo的开始

最新推荐文章于 2022-11-04 10:12:38 发布

阅读量332

点赞数

分类专栏： NLP 文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42417995/article/details/111683537

版权

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

小组介绍以及汇报主题

各位老师好，我们是第十二小组。所选的汇报的主题是情感分析，分别选取了四篇论文，以第一篇论文《Modelling Context and Syntactical Features for Aspect-based Sentiment Analysis》作为汇报的主题，我们组的汇报内容分为6部分。

论文摘要

首先是论文摘要，在这篇文章中，情感分析意思可以理解为消费者在产品评论中表达的情感过程。而这个过程的分析分为两个概念的任务，即Aspect Extraction（AE），和Aspect Sentiment Classification，作者在对Aspect抽取（AE）和Aspect Sentiment Classification（ASC）进行了独立的研究。基于AE任务，作者结合了roberta、词法之间的信息和句法之间的信息；在ASC任务中，作者研究了如何在预训练语言中更好地结合句子和属性词。

数据集

在本篇论文中，使用到了

原理分析

CSAE

首先，前面说到了AE，再本文中，作者将结合语法信息的AE任务称为CSAE（contextualized syntax-based AE）。如在PPT左侧的框架中所见，该框架具有两个特点，第一个特点是通用的性质，该框架不是针对某个特定领域而设计的，而是一个通用的模型。第二个特点是，句子的表示由三部分构成，分别是句法信息得到的表示、词法信息得到的表示和BERT的输出。在框架中嵌入了这三方面的内容，得到句子的表示后，通过一个全连接层来预测相应的BIO字标注。（BIO字标注解释）。
补充两点，首先啥是BERT呢？（BERT解释）。BERT是一种预训练语言表示的方法，这意味着我们在大型文本语料库（例如Wikipedia）上训练通用的“语言理解”模型，然后将该模型用于我们关心的下游NLP任务，BERT优于之前的方法，因为它是第一个用于预训练NLP的无监督，深度双向系统。
第二点，啥是BIO标注呢? BIO标注：将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。比如，我们将 X 表示为名词短语（Noun Phrase, NP），则BIO的三个标记为：

（1）B-NP：名词短语的开头

（2）I-NP：名词短语的中间

（3）O：不是名词短语
接下去,分别介绍如何编码词法信息和句法信息。
词法信息得到的表示
首先是词法之间的信息，为了得到这个信息，需要借助一个概念流程：“词性的嵌入”，其步骤如下：先借助词法分析的工具来得到句子对应的词性标签序列，得到一个输入序列的词性POS矩阵P，之后,通过嵌入矩阵将词性转化为向量,最后,通过自注意力机制来观察词性向量, 建模词性间的依赖关系。这里需要注意两个点,一个是向量的构建方法,是通过TD-LSTM模型来实现,该模型将上下文词和目标词嵌入到向量空间中,并使用LSTM房源对输出序列中的长距离关系进行编码,下面是TD-LSTM(TD-LSTM模型)的原理,…的…的…的…的…的…另一个点是self-attention自注意力机制(自注意力机制)… 的…的…的…的…的…
句法信息得到的表示
得到句法之间的信息，需要使用一个概念：“基于依赖关系的嵌入”。此工作任务部分是根据句法关系来确定上下文，作者将这种上下文称为Dependency-Based Contexts。具体来说,其步骤,首先是对给定句子进行句法解析，得到句法解析树，然后将其中的介词和关系进行合并，于是一个单词的Dependency-Based Contexts即为在树中该词的相邻节点和关系。依赖注入(基于依赖关系的嵌入)待补充

后续工作

在完成了前三个步骤的操作任务,后续任务就是全连接和微调,全连接层的的作用就是结合前三部分的数据关系,提取出输入句子中的aspect terms.而微调的作用是通过L2正则化使用交叉熵损失最小化. 最终的结果是针对输入的句子会有明确的边界划分的aspect terms.例如,食品质量,通过该模型分析后,会将食品质量最为整体,而不是拆分开来食品和质量两个词.

情感分类器ASC

需要补充,情感分类器待介绍

后续工作

与AE部分的自注意力机制一样,需要根据全局上下文和局部上下文的结果,重新整理上下文句子间的依赖关系.在ASC任务的操作中多了一步汇聚,根据[CLS]中的隐藏状态,将自注意力机制的结果汇聚.最后与CSAE的全连接层+微调的操作一样,ASC通过全连接层,来学习与分析上下文之间的关系,利用L2正则化的交叉熵损失作为损失函数来微调整个ASC深度学习模型.最终获得情感分类结果,结果为{正面\负面\中性}三种情况之一.

结果分析

这一部分将分三部分来进行分析.

Aspect提取结果
如PPT结果所示，(对图中的数据进行标红处理)

Aspect Sentiment Classification 结果
分类的结果可以看到，(同样,对图中数据进行标记处理,方面查看)

SRD

总结

最后，做一个总结，本篇文章提出的一个端到端的ABSA解决方案。经过实验表明，利用句子的句法信息构建的模型，效果更好。

duoluo的开始

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
NLP汇报讲义

小组介绍以及汇报主题各位老师好，我们是第十二小组。所选的汇报的主题是情感分析，选取的论文是《Modelling Context and Syntactical Features for Aspect-based Sentiment Analysis》，我们组的汇报内容分为6部分。论文简介首先是论文摘要，在这篇文章中，情感分析意思可以理解为消费者在产品评论中表达的情感过程。而这个过程的分析分为两个概念的任务，即Aspect Extraction（AE），和Aspect Sentiment Classif
复制链接

扫一扫