20230530论文整理·1-课题组1

文章探讨了NLP领域的最新研究,包括大型代码生成模型在信息抽取上的优越性,一种基于k近邻搜索的少量样本命名实体识别方法,通过AI反馈改进句子嵌入的对比学习,以及字节级别的语言建模。这些研究展示了模型创新如何提升任务性能和处理语言的精确性。
摘要由CSDN通过智能技术生成

个人观点,现在的NLP文章,有些是在做积木,微创新,有些文章,是可以的,读起来很美,有些,太过逆了,吃起来没味道,反胃。

1.CODEIE: Large Code Generation Models are Better Few-Shot Information Extractors

传统在解决知识抽取问题时,是把任务建模为text2text问题,比如使用GPT、bart、bert 等等模型。
这篇文章是认为: 代码形式的知识抽取效果优于text2text形式
模型对比图如下:
在这里插入图片描述
文章task: NER & RE and transform the task format as code generation format
用字典形式表示两个task的output,比如ner:{“text”: “Steve”, “type”: “person”}
RE:{“rel_type”: “work for”,
“ent1_type”: “person”, “ent1_text”: “Steve”,
“Steve”: “person” “Apple”: “organization” “ent2_type”: “organization”, “ent2_text”: “Apple”}

在这里插入图片描述
实验对比 在实验对比中,一个是采用open AI的code-davinci-002,一个是采用text-davinci-002
在这里插入图片描述
code prompts consistently outperform text prompts
在 error analyse中,一个是生成文本的structure ,一个是生成文本的semantic fidelity。前者是指output的形式不对,后者是指output中语义不对,比如预定义实体类型中不存在的实体类型。

在这里插入图片描述
在这里插入图片描述

PromptNER: A Prompting Method for Few-shot Named Entity Recognition via k Nearest Neighbor Search

在之前解决few-shot NER 问题时,是通过构建原型学习的方式。
Most of prototypical networks will utilize the entities from the support set to construct label prototypes and use the query set to compute span-level similarities and optimize these label prototype representations.

文中的few-shot NER 任务,是使用query中的relation type计算span-level similarity 然后优化label的prototypes

在这里插入图片描述
模型结构:
在training stage:

在预测实体span上,training 阶段是通过 Biaffine deooder 和prompt based 阶段完成的。

在这里插入图片描述

第一个baiffine decoder 使用ROPE编码,满足Ri^T Rj = Rj−i
在这里插入图片描述
第二个 classification with prompt
首先得到s-e的语义表示,是取的这些tokens的hidden state得到的representation
然后计算概率和损失函数:在这里插入图片描述

最后,在train 阶段的所有损失函数是:在这里插入图片描述
在inference stage: via KNN search

在这里插入图片描述
inference 阶段最终的prediction label of span是:
在这里插入图片描述

Improving Contrastive Learning of Sentence Embeddings from AI Feedback

使用大语言模型的feedback,构建pairs,用于模型训练。
a two-step sample pair generation method

在第一步,我们用不同的屏蔽率屏蔽句子中的一些词,然后用GPT-3根据被屏蔽句子中的剩余信息生成新的句子。然后,我们将生成的句子和原始句子结合起来,构建句子对。通过这种方式,我们可以利用屏蔽率来控制句对中两个句子的共享信息量,这将产生具有不同语义相似性的句对。
在第二步,我们利用GPT-3来生成句对的语义相似度分数。这些分数是AI对样本相似度的反馈。这些分数是AI对样本相似性的反馈。由于重建一个被掩盖的句子所引起的语义变化很难衡量,我们利用LLM的语言知识来生成语义相似度分数。第一步中的句子对生成过程确保了人工智能反馈相似性分数的多样性。
最后,我们使用我们生成的样本对和相似性分数来训练句子嵌入的模型。

在这里插入图片描述
文章对比了几种不同的feedback方式:
在这里插入图片描述

Word-Level Representation From Bytes For Language Modeling

子词标记化(sub-word tokenization)仍有一些缺点,如对噪音不稳定,难以推广到新的语言上。

我们通过引入交叉注意力网络,直接从字节中建立词级表示,以及基于词级隐藏状态的子词级预测来避免词级预测的时间和空间要求,从而彻底改变了这种方法.(introducing a cross-attention network that builds word-level representation directly from bytes, and a sub-word level prediction based on word-level hidden states to avoid the time and space requirement of word level prediction)
Byte2Word 的embedding size只占了10%

字节(Byte)是计量单位,表示数据量多少,是计算机信息技术用于计量存储容量的一种计量单位,通常情况下一字节等于八位。
字符(Character)计算机中使用的字母、数字、字和符号,比如'A''B''$''&'等。
一般在英文状态下一个字母或字符占用一个字节,一个汉字用两个字节表示。

整体流程:
在这里插入图片描述
实验结果-在不同的噪声情况下:
在这里插入图片描述
实验结果-在不同的翻译语言下:
在这里插入图片描述
实验结果-在不同的embedding size情况下:
在这里插入图片描述

SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking

中文拼写检查模型。
中文中容易出现的两种错误:语音和字形错误

在这里插入图片描述
主要模型:
在图的左侧和右侧,分别是wrong和right sentences。
训练阶段使用的对比学习。
MacBERT (Cui et al., 2020) as a strong backbone to extract the semantic features of X and then use dot products with the word embedding W to output the character distribution
在这里插入图片描述

第一个loss:
在这里插入图片描述
在这里插入图片描述

第二个loss:(对比学习损失函数,constractive Loss)
the batch as negative samples
最小化Lc的目的是使被破坏的token的隐藏状态与它们的正确对应部分相似。
在这里插入图片描述

第三个Loss (针对teacher bert,使用cross-entropy loss 保证结果准确):

add a cross-entropy loss for the teacher BERT to repeat the inputs.
在这里插入图片描述

实验-预训练语言模型的各项异性变化
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值