论文阅读
文章平均质量分 85
Facico
生命是闪耀的此刻,不是过程,就像芳香不需要道路一样。
展开
-
A Large-Scale Chinese Short-Text Conversation Dataset
A Large-Scale Chinese Short-Text Conversation Dataset大型中文短文本对话数据集提供已清洗中文对话数据集LCCC,有base、large版本所有模型和数据https://github.com/thu-coai/CDial-GPT数据集采用了推特、Reddit、微博以及技术论坛等社交媒体来建立语料库。公开的资源语料库非常丰富的,但也包含了许多噪音点,这些噪音点需要处理。通过众包资源来构建高质量的对话数据集,服务于更高级的对话任务如维基原创 2021-08-01 17:07:25 · 1655 阅读 · 15 评论 -
Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval
Approximate Nearest Neighbor Negative ContrastiveLearning for Dense Text Retrieval密集检索 (DR) 的有效性通常需要与稀疏检索相结合主要瓶颈在训练机制,训练中使用的负面实例不能代表不相关文档本文介绍最邻近负对比估计(ANCE):从语料库的最邻近(ANN)索引构造负样本的计件制,该索引与学习过程并行更新以选择更真实的负样本(这种方式从根本上解决了DR训练和测试中数据分布间的差异)实验中,ANCE提升了BERT-Si原创 2021-07-20 13:33:23 · 2875 阅读 · 0 评论 -
Dense Passage Retrieval for Open-Domain Question Answering
Dense Passage Retrieval for Open-Domain Question Answering段落检索是open domian QA的重要问题传统方法是使用稀疏向量空间模型,如TF-IDF或BM25本文重点研究室是密集向量空间模型,密集表示采用简单的双层编码器框架,同时采用了非常少的问题和段落对传统检索器的问题传统检索器不能很好匹配语义关系,只能关键词匹配而密集向量检索器通过语义训练,可以更好捕获语义信息...原创 2021-07-20 00:21:56 · 1126 阅读 · 0 评论 -
Understanding the Behaviors of BERT in Ranking
Understanding the Behaviors of BERT in Ranking该文章主要是研究BERT在passage re-ranking任务上的效果数据集MS MARCO数据集:QA问答数据集,从Bing上的用户搜索日志中的一些query,以及对应的一些候选passage。该任务的要求便是从候选的passage中选择能够回答该query的正确passage,包含一百多万个query和一百多万个passage。ClueWeb数据集类似四种基于BERT的模型1.BERT(Rep)原创 2021-07-17 20:13:55 · 295 阅读 · 0 评论 -
Passage Re-ranking with BERT
Passage Re-ranking with BERTtask有一个给定的问题,要给出答案分三个阶段1、通过一个标准的机制从语料库中见多大量可能与给定相关的文档2、passage re-ranking:对这些文档打分并重paixu3、分数前几的(前10、或前15等)的文档将会是这个问题答案的来源,用答案生成模型产出答案这篇论文主要是研究第二个阶段方法要做的工作即是:对于一个询问qqq,一个候选文章did_idi,给出一个分数sis_isi询问为句子A,限制在64个token内文章原创 2021-07-17 19:05:49 · 1104 阅读 · 0 评论 -
TransE:Translating Embeddings for Modeling Multi-relational Data
Translating Embeddings for Modeling Multi-relational Data目的即知识图谱提取成向量知识图谱三元组一般形式(sub,rel,obj)如:(Barack Obama, place of birth, Hawai),这个关系就是Hawai是Barack Obama的place of birth这只是三元组的一种形式,从属、包含、什么什么是什么等等关系都能变成三元组类似词向量的构建,这里希望将KG(knowledge graph)中的原创 2021-06-07 11:03:51 · 375 阅读 · 0 评论 -
GCN与文本分类Graph Convolutional Networks for Text Classification
TextGCNGraph Convolutional Networks for Text Classificationhttps://github.com/yao8839836/text_gcn?utm_source=catalyzex.com属于把GCN用在NLP上的开山之作,构造比较简单,效果也不错,不过使用的是最简单的“频域卷积网络”,所以速度比价慢不知道作者有没有试过简易的多项式的GCN核或切比雪夫网络构造图边权Ai,j={PMI(i,j)i,j都是单词,PMI(i,j)>原创 2021-06-01 09:14:55 · 702 阅读 · 1 评论 -
DUMA: Reading Comprehension with Transposition Thinking
DUMA: Reading Comprehension with Transposition Thinking验证了我看完DCMN+的猜想,将复杂的DCMN+的模型换上了attentionencoder接一个预训练模型decoder来预测答案两层之间加一个Dual Multi-head Co-Attention (DUMA) layerEncoder还是拼接P=[p1,p2,...,pm],Q=[q1,q2,...,qn],A=[a1,a2,...,ak]E=Enc(P⊕Q⊕A)=[e原创 2021-04-25 11:11:20 · 537 阅读 · 0 评论 -
DCMN+: Dual Co-Matching Network for Multi-choice Reading Comprehension
DCMN+: Dual Co-Matching Network for Multi-choice Reading ComprehensionRACE数据集特点:答案可能不在给定的阅读材料中,这样需要模型更加深度地理解阅读材料基于bert的以往做法:把(question,choice)连在一起看成一个句子,然后和passage做匹配缺点:这样question和choice之间没有交互信息上述流程相当于:先让passage和question做匹配,计算结果再和choice做匹配。但选项和问题应原创 2021-04-20 14:42:34 · 506 阅读 · 0 评论 -
A Probabilistic Formulation of Unsupervised Text Style Transfer
A Probabilistic Formulation of Unsupervised Text Style Transfer无监督的问题转化设X={x(1),x(2),…,x(m)}X=\{x^{(1)}, x^{(2)},\dots,x^{(m)}\}X={x(1),x(2),…,x(m)}是领域D1D_1D1的数据,Y={y(m+1),y(m+2),…,y(n)}Y=\{y^{(m+1)}, y^{(m+2)},\dots,y^{(n)}\}Y={y(m+1),y(m+2),…,y(n)}是领域原创 2021-04-14 10:00:53 · 329 阅读 · 0 评论 -
IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation
IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation大致流程1、Matching:在目标语料库构造语义相似的伪平行样本2、使用seq2seq类的模型,学习一个文本生成器3、通过细化对齐中不完善的部分,迭代反复提高transfer的功能1、Matching在第0(t=0t=0t=0)次迭代时,通过在两个语料库中配对来构造伪平行样本X^,Y^(0)\hat X,\hat Y^{(0)}X原创 2021-04-14 08:14:13 · 268 阅读 · 0 评论 -
ON VARIATIONAL LEARNING OF CONTROLLABLEREPRESENTATIONS FOR TEXT WITHOUT SUPERVISION
ON VARIATIONAL LEARNING OF CONTROLLABLEREPRESENTATIONS FOR TEXT WITHOUT SUPERVISIONCP-VAE解决VAE在文本生成的过程中,在聚合后验的隐藏空间中表示中产生大量空洞区域提出一个将后验概率约数到一个简单值的方法,通过调控这个简单值来实现对隐层表示的控制同时在无监督的长句子生成中表现良好(如风格转换任务)method将模型分成两个部分:1、我们希望控制的相关因子z(1)z^{(1)}z(1);2、无关因原创 2021-03-31 20:37:55 · 195 阅读 · 0 评论 -
Attention机制学习
Attention机制回顾RNN结构讲attention之前先回顾一下RNN的各种结构N to N如:语音处理,时间序列处理N to 1如:情感分析,输入一段视频判断类型1 to N或如:从图像生成文字,从类别生成语音或音乐N to M这种就够又叫encoder-decoder模型,或Seq2Seq模型或如:机器翻译,文本摘要,阅读理解,语音识别…回归正题Attention在encoder-decoder结构中,显然当要处理的信息长度很长原创 2020-09-17 15:13:33 · 575 阅读 · 0 评论 -
Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation
Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent RepresentationControllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation由于将风格和内容分开可能会破坏完整性,这里采用风格和内容纠缠在一起来表示整个模型被分为三个部分1、encoderEθeE_{\原创 2021-03-15 18:56:35 · 360 阅读 · 0 评论 -
Unsupervised Text Generation by Learning from Search(TGLS)
Unsupervised Text Generation by Learning from Search(TGLS)Unsupervised Text Generation by Learning from Search"先搜索后学习"的无监督文本生成方法在paraphase generation和text formalization上,无监督模型上SOTA,有逼近监督模型的效果文章的主要贡献1、提出了无监督文本生成的通用模型框架(TGLS),在搜索中学习2、展示了将大规模预训练模型原创 2021-03-14 00:16:49 · 405 阅读 · 0 评论 -
对抗自编码器(AAE)
对抗自编码器(AAE)自编码器转换成生成模型通过两个目标训练:传统的重构误差函数和对抗训练函数—>将AE隐藏层向量表示的聚合后验分布与任意先验分布匹配。训练准则和VAE很像1、编码器学到将数据分布转换成该先验分布2、解码器学到一个模型,可以将强加的先验映射到数据分布上聚合后验分布与VAE不同的是,AAE采用的是聚合后验分布q(z)=∫xq(z∣x)pd(x)dx(q(z∣x):编码分布;p(x∣z):解码分布;pd(x)数据分布;p(x)数据模型分布;q(z):z的聚原创 2020-09-20 16:41:36 · 10525 阅读 · 0 评论 -
SMART: Robust and Efficient Fine-Tuning for Pre-trainedNatural Language Models
SMART: Robust and Efficient Fine-Tuning for Pre-trainedNatural Language Models through Principled RegularizedOptimizationSmoothness-inducing Adversarial Regularizationfine-tunning的优化如下minθF(θ)=L(θ)+λSRS(θ)whereL(θ)=1n∑i=1nℓ(f(xi;θ),yi)(损失函数)\min_{\the原创 2021-03-11 21:31:16 · 381 阅读 · 0 评论 -
Virtual Adversarial Training(VAT)
Virtual Adversarial Training:A Regularization Method for Supervised and Semi-Supervised Learnimg对抗训练Goodfellow对对抗训练损失函数定义如下Ladv(xl,θ)=D[q(y∣xl),p(y∣xl+radv,θ)]whereradv=argmaxD[q(y∣xl),p(y∣xl+radv,θ)]L_{adv}(x_l,\theta)=D[q(y|x_l),p(y|x_l+r_{adv},\thet原创 2021-03-10 16:56:48 · 600 阅读 · 0 评论 -
Style Transfer from Non Parallel Text by Cross Alignment
Style Transfer from Non Parallel Text by Cross Alignment引入一个跨语料库(两个语料库有相同的content,但数据非并行)且能精确对齐的表达学习一个encoder,可以把input映射到一个与style无关的content表达。再将其传递给与style有关的decoder解码。不用VAE(变分自编码器),因为我们需要使潜在content表达更丰富与自然三个任务:情感转化,单词替换密码的破译,恢复语序和CV的风格转化一样的有原创 2021-03-10 16:10:10 · 573 阅读 · 0 评论 -
DeBERTa
DeBERTa[DeBERTa: Decoding-enhanced BERT with Disentangled Attention](https://arxiv.org/abs/2006.03654)code:https://github.com/microsoft/DeBERTaGPT2差不多的参数,15亿参数。。。keyDisentangled Attention(分散注意力)架构和bert类似,主要区别是Attention分数计算额外增加了位置信息BERT:每个输入层to原创 2021-03-09 20:53:23 · 1055 阅读 · 0 评论 -
UNILM
UNILMUnified Language Model Pre-training for Natural Language Understanding and Generationkey综合所有的LM - 像bert在NLU任务上表现很好,但是在NLG任务上表现就不太行,UNILM就可以兼备两个任务采用三个无监督目标:双向LM,单向LM,Sequence-to-Sequence LMUNILM模型单向LM,双向LM和Sequence-to-Sequence LM之间的transf原创 2021-03-09 20:21:31 · 429 阅读 · 0 评论 -
StructBERT(ALICE)
StructBERT(ALICE)STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDING效果仅次于ERNIE2.0,在GLUE上比ERNIE2.0高,目前国内GLUE绑最高作品先看两句话i tinhk yuo undresatnd this sentneces.研表究明,汉字序顺并不定一影阅响读。比如当你看完这句话后,才发这现里的字全是都乱的上面全是乱序,改进原创 2021-02-22 22:16:52 · 268 阅读 · 0 评论 -
ERNIE 1.0->ERNIE2.0
ERNIEERNIE: Enhanced Representation from kNowledge IntEgration百度在bert上的改进,适用于中文NLP模型知识增强bert通过字的搭配可以很容易推测出mask中的字,如乒乓[球],但是不能显示地对语义信息进行建模(如乒乓球)因此提出了短语和实体级别的mask方式,通过此方法融合外部知识[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3GfqbWy-1613551656503)(https:原创 2021-02-22 22:17:04 · 1212 阅读 · 2 评论 -
K-BERT
K-BERTK-BERT: Enabling Language Representation with Knowledge Graphbert在特定领域表现不好融合KG借鉴并改进ERNIE1、知识图谱中的关系信息没有被用到2、实体向量和词向量是使用不同的方法得到的,可能存在空间不一致3、对于实体数量巨大的大规模知识图谱,实体向量表将占据很大的内存上图输入句子:Tim Cook is currently visiting Beijing now关联的三元组信息:Apple原创 2021-02-22 22:17:15 · 468 阅读 · 0 评论 -
sentence-BERT
sentence-BERTSentence-BERT: Sentence Embeddings using Siamese BERT-Networks工程论文,应用效果很好在文本相似性任务上,之前的bert系列已经可以达到sota,但是bert要求句对拼接到一起传入模型,这样会造成巨大的计算开销如用10000条句子,大概会计算10000*10000/2=50000000次,如果使用bert要花65小时这就导致很多相似度计算、聚类等任务不能较好的进行这里sentence-BERT基于预训练过的原创 2021-02-17 15:56:38 · 927 阅读 · 1 评论 -
DistillBERT
DistillBERTDistilBERT, a distilled version of BERT: smaller,faster, cheaper and lighter不同于two-step,distillBERT在预训练的时候蒸馏知识蒸馏softmax的温度知识蒸馏的losssoft labels/soft prediction:teacher输出soft labels作为结果提供给student学习,最后得到distillation loss(Lsoft\mathcal{L原创 2021-02-17 15:55:23 · 664 阅读 · 0 评论 -
TinyBERT
TinyBERTTinyBERT: Distilling BERT for Natural Language Understanding对Bert encoding中Transformer进行压缩,使用two-step学习框架在精度允许的范围内节约计算资源和推理速度Transformer蒸馏Embedding-layer DistillationLembd=MSE(ESWe,ET)ES∈Rl×d0,ET∈Rl×dl:sequencelengthd0:studentembedding维度d:t原创 2021-02-17 12:56:49 · 273 阅读 · 0 评论 -
SpanBERT
SpanBERTSpanBERT: Improving Pre-training by Representing and Predicting Spans没有segment embedding,只有一个长句子,类似RoBERTa使用Span Masking将NSP改成了SBOSpan Masking首先引入了ERINE中的Whole Word Masking、Named Entity Masking、Phrase Masking这上面的做法能让效果提升,但是MASS模型中表明,对于这些词原创 2021-02-17 12:55:43 · 310 阅读 · 0 评论 -
ELECTRA
ELECTRAEfficiently Learning an Encoder that Classifies Token Replacements Accurately特点1:使用了新的模型预训练框架,采用generator和discriminator的结合方式,但不同于GAN2:将Masked Language Model的方式改为了replaced token detection3:模型小,设备要求低(小模型时表现好,大模型时效果不如其他) 将MLM换成replaced原创 2021-02-17 12:54:43 · 213 阅读 · 0 评论 -
ALBERT
ALBERTALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations主要优化在参数的减少Factorized embedding parameterization作者实验发现,把bert的hidden state增大效果会降低,所以反向考虑将参数减少(BERT-xlarge是hidden-state较大的)设embedding的维度为E,hidden state的维度为H,在bert中E=HE原创 2021-02-17 12:53:29 · 230 阅读 · 0 评论 -
RoBERTa与Adv-RoBERTa
RoBERTaRoBERTa:A Robustly Optimized BERT Pretraining Approach比起bert的改进1、训练的时间更长2、移除了next predict loss(就是没有NSP部分)3、训练的序列更长4、动态调整masking机制bert使用的随机掩码和预测token,bert在实现预处理的时候执行一次掩码,得到一个静态掩码如dupe_factor=10, epoch=40, 则每种mask的方式在训练中会被使用4次。(将训练数原创 2021-02-17 12:50:28 · 190 阅读 · 0 评论 -
NLPGym - A toolkit for evaluating RL agents onNatural Language Processing Tasks
NLPGym - A toolkit for evaluating RL agents onNatural Language Processing Tasks没有什么新思想,就是建立了一个把NLP和RL结合的工具,RL用于1、序列标注(sequence tagging)RL用于解决被结构化的预测任务:如命名实体识别、词性标注2、文本总结(text summarization)RL的agent选择要被用来总结的句子3、QA(question answering)RL的a原创 2021-02-17 12:48:36 · 125 阅读 · 0 评论 -
众包
Building a Conversational Agent Overnight with Dialogue Self-Play(Google) Building a Conversational Agent Overnight with Dialogue Self-Play领域:单域、多域对话系统对话收集机器对话机器框架(MLM),功能导向性流程,用于训练对话智能体1、通过自动化任务无关的步骤以减少建立对话数据集所需的代价,从而对话开发者只需要提供对话的任务特定的层面2、获得更高质量原创 2021-02-17 12:47:45 · 364 阅读 · 0 评论 -
XLNet: Generalized Autoregressive Pretrainingfor Language Understanding
XLNet: Generalized Autoregressive Pretrainingfor Language Understanding将bert的autoenconder(AE)模型换成了autoregressive(AR)模型autoregressive模型就是常规的语言概率分布模型,用极大似然p(X)=∏p(xt∣x<t)p(X)=\prod p(x_t|x_{<t})p(X)=∏p(xt∣x<t),也可以反向p(X)=∏p(xt∣x>t)p(X)=\pro原创 2021-02-17 12:41:05 · 529 阅读 · 0 评论 -
Position信息的处理
NLP问题中,位置的相关信息是非常重要的信息、 如在RNN中,就能自然的处理出位置的相关信息 但是在transformer模型中,由于self-attention的方法,会导致位置信息的丢失最简单的形式PE(positionembedding)=pos=0,1,2,...,T−1PE(position embedding)=pos=0,1,2,...,T-1PE(positionembedding)=pos=0,1,2,...,T−1这样处理:在文本长的时候,PE的值会很大,影响了原来.原创 2020-10-23 18:00:01 · 373 阅读 · 0 评论 -
PEGASUS
PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization针对文本摘要任务本身提出了新的监督式的预训练目标GSG在12个文本摘要数据集实现了SOTA(state-of-the-art)在低资源的情形下能取得不错的效果GSG(Gap Sentence Generation)GSG做和Bert类似的处理,将mask信息的层级提高到句子(就是每次mask掉几个句子),为了更接近生成式摘要,对于ma原创 2020-10-05 08:10:56 · 466 阅读 · 0 评论 -
Bert学习小记
BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understandingembeddinginput embedding = token embedding + segmentation embedding + position embeddingsegment embedding对于句子对来说(两个句子放在一起训练),EA表示坐标的句子,EB表示右边的句子[CLS]每个序列的第一个标记[SEP]句子原创 2020-10-01 16:32:38 · 271 阅读 · 0 评论 -
RCNN的演绎之路
RCNN、Fast-RCNN、Faster-RCNNtwo-stage的方法:主要思路就是RCNN的思路准确度较one-stage的方法高(SSD,Yolo),但是慢RCNN思路很简单候选框->CNN提取特征->一堆SVM分类->边框回归精调(还有一些NMS,难负例之类的调节)(详见之前的博客)缺点体量笨重,步骤繁琐,内存占空间大慢(测试与训练):比如每次对大量大面积重叠的候选框跑CNNFast-RCNN考虑上面的慢的因素,从而把大量的候选原创 2020-09-23 14:33:57 · 189 阅读 · 0 评论 -
Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习
Perceptual Losses for Real-Time Style Transferand Super-Resolution处理经典问题:图像转化问题(image transformation tasks),如快速风格迁移和超分辨率灵感前向传播的神经网络优点:速度快缺点:在像素级之间的误差中不能捕获输出和ground truth 之间的感知误差(perceptual differences)。感知误差函数(perceptual loss function)近期,有很多原创 2020-09-22 08:18:06 · 91 阅读 · 0 评论 -
Densely Connected Convolutional Networks论文学习
Densely Connected Convolutional Networks如果在接近输入层和接近输出层之间有更短的连接(如1->n),则卷积神经网络会更深入,更准确,更有效。稠密卷及神经网络:每一层之间都有连接(L(L−1)2\frac{L(L-1)}{2}2L(L−1),由此密集的连接方式而得名),连接都以前馈的方式连接(对于每一层,前面所有层的特征图作为输入,它自己的特征图作为后面所有层的输入)优点:缓解了梯度消失增强了特征的传播鼓励特征的重利用大大的减少了参数原创 2020-09-17 15:30:57 · 131 阅读 · 0 评论