去噪与鲁棒性
文章平均质量分 77
卡比比比比
北邮通信工程本科,人工智能学院模式识别实验室硕士在读,NLP方向,主要研究对话方面的文本分类,NER,Slot filling等。
展开
-
【NAACL 2019】《 Adversarial Domain Adaptation Using Artificial Titlesfor Abstractive Title Generation》
【NAACL 2019】《 Adversarial Domain Adaptation Using Artificial Titlesfor Abstractive Title Generation》阅读笔记英文标题:Adversarial Domain Adaptation Using Artificial Titlesfor Abstractive Title Generation中文翻译:利用人工标题生成抽象标题的对抗性领域适应原文链接: http://jcst.ict.ac.cn:8080/原创 2022-03-24 10:10:51 · 163 阅读 · 1 评论 -
【NIPS 2021】ASR-GLUE: A New Multi-task Benchmark for ASR-Robust Natural Language Understanding
原文链接:https://arxiv.org/abs/2108.13048数据集:https://drive.google.com/drive/folders/1slqI6pUiab470vCxQBZemQZN-a_ssv1Qintro本文提出了ASR-GLUE benchmark,包含6个不同的NLU任务的新集合,用于评估3种不同背景噪声水平和6个不同母语者的ASR误差下模型的性能。并在噪声强度、误差类型和扬声器变量等方面系统地研究了ASR误差对NLU任务的影响。之后采用了两种方法:基于校正的方法和原创 2022-03-24 10:11:14 · 305 阅读 · 0 评论 -
【EMNLP2021】Evaluating the Robustness of Neural Language Models to Input Perturbations
【EMNLP2021】Evaluating the Robustness of Neural Language Models to Input Perturbations原文链接:https://arxiv.org/abs/2108.12237扰动方法是使用NLTK库在Python中实现的。源码链接:https://github.com/mmoradi-iut/NLP-perturbationintroBERT/XLNet/GPT-2性能很好,在很多NLP任务上达到了SOTA,甚至超过了人类表现。原创 2022-03-24 10:11:45 · 262 阅读 · 1 评论 -
【ACL2020】NAT: Noise-Aware Training for Robust Neural Sequence Labeling
原文链接:https://arxiv.org/abs/2005.07162NAT acl2020源码链接:https://github.com/mnamysl/nat-acl20201Intro对于有噪输入的序列标注问题,本文提出了2种Noise-Aware Training (NAT) 方法来提高有噪输入的序列标注任务系统的准确性和鲁棒性。作者还提出了模拟真实噪声的引入。实验部分,作者使用了原始数据及其变体,这些数据都被真实的OCR错误和拼写错误干扰。在英语和德语命名实体识别基准上的广泛实验证实,原创 2022-03-24 10:11:57 · 235 阅读 · 0 评论 -
Randomized Substitution and Vote for Textual Adversarial Example Detection
文本对抗样本检测的随机替换和投票https://arxiv.org/pdf/2109.05698.pdf摘要这篇工作提出了一种对抗样本检测模块,针对检测出数据集中通过单词替换生成的对抗样本。方法Motivation对一个文本中的单词进行替换生成了预测和标签不一致的对抗样本,这个替换后的序列中,每个单词相互影响其他单词(相互交互),共同影响模型的判断,所以,受现有基于输入预处理的防御(Wang et al. 2021a; Zhou et al. 2021)的启发,我们观察到随机同义词替换可以破坏这原创 2022-03-24 10:12:38 · 213 阅读 · 0 评论 -
【coling 2020】Attentively Embracing Noise for Robust Latent Representation in BERT
原文链接:https://aclanthology.org/2020.coling-main.311.pdfintro本文针对ASR转化成文本之后的文本分类任务进行鲁棒性研究。作者基于EBERT进行优化,EBERT比传统bert的优点在于后者只使用输入的第一个【CLS】token生成输入的表征,其余的均丢弃,可是当文本带噪时单一的【CLS】token作为表征容易受到剧烈影响。Ebert则把丢弃的token作为额外信息的来源,与第一个【CLS】token共同生成输入表征,更具鲁棒性。作者对EBERT的原创 2022-03-24 10:12:53 · 362 阅读 · 0 评论 -
【ACL 2021】《 Unsupervised Label Refinement Improves Dataless Text Classification》阅读笔记
【ACL 2021】《 Unsupervised Label Refinement Improves Dataless Text Classification》阅读笔记英文标题:Unsupervised Label Refinement Improves Dataless Text Classification中文翻译:无监督的标签细化改进无数据文本分类原文链接: https://arxiv.org/pdf/2012.04194.pdf文章目录【ACL 2021】《 Unsupervised La原创 2021-07-14 23:07:31 · 414 阅读 · 1 评论 -
【ACL 2021】《 Defending Pre-trained Language Models from Adversarial Word Substitution Without Perform
【ACL 2021】《 Defending Pre-trained Language Models from Adversarial Word Substitution Without Performance Sacrifice》阅读笔记英文标题:Defending Pre-trained Language Modelsfrom Adversarial Word Substitution Without Performance SacrificeRepresentations中文翻译:在对抗性的替换原创 2021-07-17 22:41:11 · 658 阅读 · 2 评论 -
【ACL 2021】《 RADDLE:An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Sys
【ACL 2021】《 RADDLE:An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Systems》实验分析英文标题:RADDLE:An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Systems中文翻译:健壮的任务型的对话系统的评估基准和分析平台原文链接: https://arxiv.原创 2021-07-19 11:44:54 · 235 阅读 · 1 评论 -
【ArXiv 2020】Tinybert: Distilling bert for natural language understanding
这篇文章基于语义空间嵌入和掩码语言模型来给 NLU 任务做增强,具体的做法是:首先利用BERT的分词器将序列中的单词分为多个词块(word pieces),BERT有两大分词器,BasicTokenizer 和 WordpieceTokenizer,其中BT是将句子分成基本的token,WPT是在BT的基础上利用贪婪最长优先匹配算法将单词分为词块(从左到右的顺序,将一个词拆分成多个子词,见如下动图)。这篇文章为每个词块形成一个候选集。候选集的生成方式如下:语义空间嵌入:如果词块不是一个完整的词(例原创 2022-03-23 13:05:16 · 893 阅读 · 0 评论 -
【ACL Findings 2021】Does Robustness Improve Fairness? Approaching Fairness with Word Substitution R
【ACL Findings 2021】《 Does Robustness Improve Fairness? Approaching Fairness with Word Substitution Robustness Methods for Text Classification》阅读笔记英文标题:Unsupervised Label Refinement Improves Dataless Text Classification中文翻译:鲁棒性可以提高公平性吗? —基于词替换的鲁棒性文本分类方法原原创 2021-07-29 18:52:48 · 393 阅读 · 0 评论 -
【ICLR 2021】TOWARDS ROBUSTNESS AGAINST NATURAL LANGUAGE WORD SUBSTITUTIONS 阅读笔记
该文章将词替换攻击空间建模为凸空间,这使得模型可以更好的捕捉向量空间的替换词:左为本文方法,右1.2分别为l2-原创 2021-08-03 10:21:55 · 223 阅读 · 0 评论 -
【AAAI 2021】C2C-GenDA: Cluster-to-Cluster Generation for Data Augmentation of Slot Filling
通过 L 层 Transformer 对连接的多个输入话语进行编码,所提出的模型使用重复感知注意力和面向多样化的正则化来生成更多样的句子。解码后生成多个不与原话语重复且互相之间不重复的新话语。两个关键点是重复感知注意力机制以及多样性正则化,让序列生成器考虑到增强数据应不同于原生数据并互异。相比于 seq2seq DA,Cluster2Cluster DA 的效果如下:...原创 2022-03-23 12:48:13 · 621 阅读 · 0 评论 -
【ACL2020】Conditional Augmentation for Aspect Term Extraction via Masked Sequence-to-Sequence Generat
Conditional Augmentation for Aspect Term Extraction via Masked Sequence-to-Sequence Generation本文提出了一种用于ATE(识别情感目标——序列标注)任务的数据增强方法本文针对ATE任务数据缺乏的现状,提出了一种通过Masked Sequence-to-Sequence随机产生数据的数据增强方法。增强方法概括如下:目标:根据 mask 后的序列及其原始标签来重构被 mask 掉的片段,得到新序列采样:按照原创 2022-03-23 12:46:37 · 244 阅读 · 0 评论 -
【COLING 2018】Sequence-to-sequence data augmentation for dialogue language understanding
基于 seq-seq 生成模型的对话语言理解 DA这篇文章的应用场景十分符合序列标注任务能用到的 DA 技术,核心是 Seq2Seq模型:输入一种表述的句子,生成不同表述的新句子。为了进一步鼓励多样化生成,我们把一种新的多样性等级嵌入到话语表示中。在训练seq2seq模型时,多样性等级也用于过滤相似的表述对。方法描述一、数据增强流程流程如图所示,当给定一个句话,我们首先通过抽槽操作进行去多样化,再将想要生成的不同多样化等级以token的形式加到语句表示中。然后我们把原句和多样化等级一起作为输入送入到原创 2022-03-23 12:38:12 · 149 阅读 · 0 评论 -
【EMNLP2021】Data Augmentation for Cross-Domain Named Entity Recognition
链接: https://arxiv.org/abs/2109.01758代码:https://github.com/RiTUAL-UH/style_NER.Abs& Intro本文研究了通过数据投影将高资源域的数据投影至低资源域。具体来说,我们提出了一种新的神经架构,通过学习模式(如风格、噪声、缩写等),将数据表示从高资源领域转换为低资源领域。在区分它们的文本和将两个域对齐的共享特征空间中。我们对不同的数据集进行了实验,并表明,将数据转换为低资源域表示比仅使用来自高资源域的数据取得了显著的改原创 2022-03-23 12:33:23 · 446 阅读 · 0 评论 -
【arxiv 2021】Robust Natural Language Processing: Recent Advances, Challenges, and Future Directions
https://arxiv.org/abs/2201.00768一篇去噪的综述,感觉还是介绍为主,不是特别深入。这篇有营养的部分主要这两部分我们提供了各种最近的鲁棒性性研究的分类,在研究变量的范围内;例如,模型、嵌入技术、度量和技术等。我们提供了不同方法及其优缺点之间的对比。1. 鲁棒性分类NLP鲁棒性相关分析的简要分类(包括技术、嵌入、评估度量、评估基准(数据集)、攻击空间(威胁模型和粒度)和相关的防御机制)作者介绍了一个斯坦福提出的评估鲁棒性工具–Robust Gym(https:原创 2022-03-23 12:31:41 · 3673 阅读 · 0 评论 -
【EMNLP 2021】Learning from Noisy Labels for Entity-Centric Information Extraction
本文从一个现象入手,很多的数据集存在标注错误(例如CoNLL03),深度神经模型很容易过拟合噪声标签,遭受性能下降。而过滤有噪声的标签非常昂贵,最近的研究表明噪声标签需要更多的训练步骤来记忆,比干净的标签更容易被遗忘,基于这些特性作者提出了一个简单的实体正则化信息抽取框架,它由几个结构相同但参数初始化不同的神经模型组原创 2022-03-23 12:30:32 · 3428 阅读 · 0 评论 -
【EMNLP2021】Learning from Multiple Noisy Augmented Data Sets for Better Cross-Lingual Spoken Language
intro缺乏训练数据对将口语理解(SLU)迁移到资源匮乏的语言提出了巨大的挑战。虽然已经提出了各种数据增强方法来合成低资源目标语言中的训练数据,但增强的数据集往往存在噪声,从而阻碍了SLU模型的性能原创 2021-09-08 11:09:44 · 144 阅读 · 0 评论