2021-08-25 多模态反讽识别系列文章阅读(二)

面对文本的反讽识别


1、论反讽的几种形式(文学层次)

参考《论反讽的几种形式》

反讽的基本特征是:字面意义与深层意义 不一致,即 言在此而意在彼,如它以反讽性褒扬予以责备,或者以反讽性责备予以褒扬,这一基本特征存在于反讽的各种变体形式之中。反讽称为一种思维、感情和表达的模式。

反讽的形式可分为:言语反讽,情景反讽和戏剧反讽。

  • 言语反讽(较明显)—— 局部性矛盾
    在言语反讽中,说的是一回事,指的却是另外一回事。在言语反讽中不可避免地存在着表面意义和隐藏意义,语言外壳与真实意指之间的对照与矛盾就显得相当强烈和鲜明。进一步地,其大致包含四种情况:

    1. 反语 :运用与本意正好相反的词语,达到特殊的修辞。
    2. 语境误置:“反讽,是承受语境的压力。”语境的压力会使得言语产生字面之外的潜台词。
    3. 悖逆语词并置( × \times ×):作品刻意通过典型的语义悖逆语词组合、交错、并置,使语词之间相互干扰、融合、冲突,借以形成反讽性,在语言的狂欢中扩大语言的张力。
    4. 句式与内容不和( × \times ×):句子形式与内容的不一致,这种不协调暗示了作者并不相信自己所说的话。
  • 情景反讽(隐蔽性)—— 整体性矛盾

    1. 语调反讽( × \times ×):通过叙述态度、语调与叙事内容、表达旨意的相悖,形成具有反讽意味的叙述语调,从而更加突出了作者的真实表现意图。
    2. 视点反讽:通过异常叙述者的独特视角进行叙述,与人们所熟悉的惯常视角形成对照,产生反讽意义。
    3. 戏仿反讽( × \times ×):通过模仿别人的诗文而作的游戏文字或讽刺诗文。
  • 戏剧反讽( × \times ×
    戏剧反讽来源于戏剧。它发挥作用在于观众(读者)的全知全能与剧中人的无知之间 的张力。在戏剧中,台下的观众知道事情的本末来由,但台上的人物却被蒙在鼓里,任由事情发展。反讽作品的故事是在两个层面上展开的,一个是叙述者或剧中人看到的表象,另一个是读者体味到的事实。通过表象与事实间的对立张力,产生强烈的艺术效果。二者的反差越大,反讽越鲜明。

2、反讽分类(研究层面)

反讽修辞的具体形式多种多样,依据反讽成因可将其分为三类,分别为:前后情感矛盾式反讽、情景反讽与其他反讽,其中第一类反讽占69.9%。基于上述分类,目前的研究可以分为基于内容(上下文无关)和基于上下文(上下文相关)两方面的反讽研究。

基于内容的反讽识别,又称为上下文无关的发讽识别,即不考虑识别目标句的上下文信息,仅仅从目标句本身出发判定其是否为反讽表达。

隐式情感包括:事实性隐式情感 和 修辞性隐式情感。反讽是一种修辞性隐式情感。

基于内容的反讽识别

假设:目标句是否反讽与上下文无关。
上下文无关的反讽识别任务可分为 “词对矛盾”模型和 “半句对矛盾”模型。
1. “词对矛盾”模型
简介:针对句中的矛盾词对使用词对注意力机制,通过计算句中任意两个词的注意力分数得到注意力分数矩阵。在此基础上,可得到包含任意两个词的矛盾程度信息的句子表示。 最后,在监督信号的作用下迫使模型特别留意句子中的矛盾词。

为了能够关注到前后不一致(矛盾)的词对,模型可以记录词对注意力分数,并绘制注意力分数热力图提升模型的可解释性。计算注意力分数的两种方法:
(1)max pooling (2)二次 attention
上述注意力分数与词对向量结合,生成句子表示。然后进入分类层进行分类。

2. “半句对矛盾”模型
简介:将一句话分成两个半句,针对句子前半句与后半句的矛盾性, 利用孪生神经网络模型对“半句对”建模, 模型通过检测 两个半句 的一致性推断是否为反讽。还可以在孪生神经网络的基础上加入注意力机制,从而使模型突出两个半句中的关键词。可以看出, 在某种程度上 “半句对矛盾” 模型是对“词对予盾”模型的一种改进, 即由单一词级别扩展到了多个词(半句)级别。

孪生神经网络
孪生神经网络可看作一种“连体”的神经网络,即两个结构类似的子网络共享权重。主要思想:将一对样本映射到同一个目标空间(主要是通过共享权重实现),然后利用常用的距离函数(如:欧氏距离,余弦距离等)进行相似性对比。
网络结构如下图所示:
孪生神经网络
孪生网络是一种重要的图像或文本相似性判定模型。模型的输入:一对文本,输出:类别(1或0)。常用于样本种类多且每个类别的样本数量都很少的情况。
在孪生网络的基础上增加 self-attention 机制,可以使得孪生网络的左右两个子网络可以有侧重的关注某些重点词,使得两个半句的向量表示更加紧凑。

对抗学习 研究团队:哈尔滨工业大学 徐睿峰

CNN+注意力机制(对抗样本,领域迁移的对抗学习)

基于上下文的反讽识别

假设:反讽修辞本身是一种与上下文相关的表达方式。上下文,广义上包括叙述人的语调、表情、肢体动作,当时的心里状态,文本在长文中的环境,文本的转发、回复、评论情况等。
原则上,使用上下文信息可以极大提升自动化反讽识别的准确率上限。
常考虑的上下文信息包括:

  1. 用户信息(用户贝叶斯先验信息和用户写作风格信息)
  2. 主题信息。

图文反讽识别

基本思路:

  1. 表示层:分别学习文本和图像的特征表示
  2. 融合层:双线性融合
  3. 分类层:0/1分类

3、社交文本的特点

社交文本(Twitter)存在的问题及常见处理方式:

  1. 口语化,语法错误,缩写,稀疏的一次性词(如:连续重复的字符或单词) ,可进行正则化处理。
  2. 带有大量URL链接,可删除。
  3. 标签或表情符号,常见的是使用 hashtag“#” 强调文本中关键部分或主题。可以将 hashtag“#” 拆分成单独的词。
  4. Emoji 表情符,可将其替换成文本形式。
  5. 稀疏的非法词汇会极大增加网络的词汇量,可将其删除。
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值