NLP
文章平均质量分 85
Facico
这个作者很懒,什么都没留下…
展开
-
A Large-Scale Chinese Short-Text Conversation Dataset
A Large-Scale Chinese Short-Text Conversation Dataset大型中文短文本对话数据集提供已清洗中文对话数据集LCCC,有base、large版本所有模型和数据https://github.com/thu-coai/CDial-GPT数据集采用了推特、Reddit、微博以及技术论坛等社交媒体来建立语料库。公开的资源语料库非常丰富的,但也包含了许多噪音点,这些噪音点需要处理。通过众包资源来构建高质量的对话数据集,服务于更高级的对话任务如维基原创 2021-08-01 17:07:25 · 1388 阅读 · 15 评论 -
Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval
Approximate Nearest Neighbor Negative ContrastiveLearning for Dense Text Retrieval密集检索 (DR) 的有效性通常需要与稀疏检索相结合主要瓶颈在训练机制,训练中使用的负面实例不能代表不相关文档本文介绍最邻近负对比估计(ANCE):从语料库的最邻近(ANN)索引构造负样本的计件制,该索引与学习过程并行更新以选择更真实的负样本(这种方式从根本上解决了DR训练和测试中数据分布间的差异)实验中,ANCE提升了BERT-Si原创 2021-07-20 13:33:23 · 2404 阅读 · 0 评论 -
Dense Passage Retrieval for Open-Domain Question Answering
Dense Passage Retrieval for Open-Domain Question Answering段落检索是open domian QA的重要问题传统方法是使用稀疏向量空间模型,如TF-IDF或BM25本文重点研究室是密集向量空间模型,密集表示采用简单的双层编码器框架,同时采用了非常少的问题和段落对传统检索器的问题传统检索器不能很好匹配语义关系,只能关键词匹配而密集向量检索器通过语义训练,可以更好捕获语义信息...原创 2021-07-20 00:21:56 · 1077 阅读 · 0 评论 -
Understanding the Behaviors of BERT in Ranking
Understanding the Behaviors of BERT in Ranking该文章主要是研究BERT在passage re-ranking任务上的效果数据集MS MARCO数据集:QA问答数据集,从Bing上的用户搜索日志中的一些query,以及对应的一些候选passage。该任务的要求便是从候选的passage中选择能够回答该query的正确passage,包含一百多万个query和一百多万个passage。ClueWeb数据集类似四种基于BERT的模型1.BERT(Rep)原创 2021-07-17 20:13:55 · 267 阅读 · 0 评论 -
Passage Re-ranking with BERT
Passage Re-ranking with BERTtask有一个给定的问题,要给出答案分三个阶段1、通过一个标准的机制从语料库中见多大量可能与给定相关的文档2、passage re-ranking:对这些文档打分并重paixu3、分数前几的(前10、或前15等)的文档将会是这个问题答案的来源,用答案生成模型产出答案这篇论文主要是研究第二个阶段方法要做的工作即是:对于一个询问qqq,一个候选文章did_idi,给出一个分数sis_isi询问为句子A,限制在64个token内文章原创 2021-07-17 19:05:49 · 1008 阅读 · 0 评论 -
TransE:Translating Embeddings for Modeling Multi-relational Data
Translating Embeddings for Modeling Multi-relational Data目的即知识图谱提取成向量知识图谱三元组一般形式(sub,rel,obj)如:(Barack Obama, place of birth, Hawai),这个关系就是Hawai是Barack Obama的place of birth这只是三元组的一种形式,从属、包含、什么什么是什么等等关系都能变成三元组类似词向量的构建,这里希望将KG(knowledge graph)中的原创 2021-06-07 11:03:51 · 344 阅读 · 0 评论 -
GCN与文本分类Graph Convolutional Networks for Text Classification
TextGCNGraph Convolutional Networks for Text Classificationhttps://github.com/yao8839836/text_gcn?utm_source=catalyzex.com属于把GCN用在NLP上的开山之作,构造比较简单,效果也不错,不过使用的是最简单的“频域卷积网络”,所以速度比价慢不知道作者有没有试过简易的多项式的GCN核或切比雪夫网络构造图边权Ai,j={PMI(i,j)i,j都是单词,PMI(i,j)>原创 2021-06-01 09:14:55 · 667 阅读 · 1 评论 -
DUMA: Reading Comprehension with Transposition Thinking
DUMA: Reading Comprehension with Transposition Thinking验证了我看完DCMN+的猜想,将复杂的DCMN+的模型换上了attentionencoder接一个预训练模型decoder来预测答案两层之间加一个Dual Multi-head Co-Attention (DUMA) layerEncoder还是拼接P=[p1,p2,...,pm],Q=[q1,q2,...,qn],A=[a1,a2,...,ak]E=Enc(P⊕Q⊕A)=[e原创 2021-04-25 11:11:20 · 507 阅读 · 0 评论 -
DCMN+: Dual Co-Matching Network for Multi-choice Reading Comprehension
DCMN+: Dual Co-Matching Network for Multi-choice Reading ComprehensionRACE数据集特点:答案可能不在给定的阅读材料中,这样需要模型更加深度地理解阅读材料基于bert的以往做法:把(question,choice)连在一起看成一个句子,然后和passage做匹配缺点:这样question和choice之间没有交互信息上述流程相当于:先让passage和question做匹配,计算结果再和choice做匹配。但选项和问题应原创 2021-04-20 14:42:34 · 472 阅读 · 0 评论 -
A Probabilistic Formulation of Unsupervised Text Style Transfer
A Probabilistic Formulation of Unsupervised Text Style Transfer无监督的问题转化设X={x(1),x(2),…,x(m)}X=\{x^{(1)}, x^{(2)},\dots,x^{(m)}\}X={x(1),x(2),…,x(m)}是领域D1D_1D1的数据,Y={y(m+1),y(m+2),…,y(n)}Y=\{y^{(m+1)}, y^{(m+2)},\dots,y^{(n)}\}Y={y(m+1),y(m+2),…,y(n)}是领域原创 2021-04-14 10:00:53 · 306 阅读 · 0 评论 -
IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation
IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation大致流程1、Matching:在目标语料库构造语义相似的伪平行样本2、使用seq2seq类的模型,学习一个文本生成器3、通过细化对齐中不完善的部分,迭代反复提高transfer的功能1、Matching在第0(t=0t=0t=0)次迭代时,通过在两个语料库中配对来构造伪平行样本X^,Y^(0)\hat X,\hat Y^{(0)}X原创 2021-04-14 08:14:13 · 245 阅读 · 0 评论 -
ON VARIATIONAL LEARNING OF CONTROLLABLEREPRESENTATIONS FOR TEXT WITHOUT SUPERVISION
ON VARIATIONAL LEARNING OF CONTROLLABLEREPRESENTATIONS FOR TEXT WITHOUT SUPERVISIONCP-VAE解决VAE在文本生成的过程中,在聚合后验的隐藏空间中表示中产生大量空洞区域提出一个将后验概率约数到一个简单值的方法,通过调控这个简单值来实现对隐层表示的控制同时在无监督的长句子生成中表现良好(如风格转换任务)method将模型分成两个部分:1、我们希望控制的相关因子z(1)z^{(1)}z(1);2、无关因原创 2021-03-31 20:37:55 · 181 阅读 · 0 评论 -
Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation
Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent RepresentationControllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation由于将风格和内容分开可能会破坏完整性,这里采用风格和内容纠缠在一起来表示整个模型被分为三个部分1、encoderEθeE_{\原创 2021-03-15 18:56:35 · 335 阅读 · 0 评论 -
Unsupervised Text Generation by Learning from Search(TGLS)
Unsupervised Text Generation by Learning from Search(TGLS)Unsupervised Text Generation by Learning from Search"先搜索后学习"的无监督文本生成方法在paraphase generation和text formalization上,无监督模型上SOTA,有逼近监督模型的效果文章的主要贡献1、提出了无监督文本生成的通用模型框架(TGLS),在搜索中学习2、展示了将大规模预训练模型原创 2021-03-14 00:16:49 · 383 阅读 · 0 评论 -
SMART: Robust and Efficient Fine-Tuning for Pre-trainedNatural Language Models
SMART: Robust and Efficient Fine-Tuning for Pre-trainedNatural Language Models through Principled RegularizedOptimizationSmoothness-inducing Adversarial Regularizationfine-tunning的优化如下minθF(θ)=L(θ)+λSRS(θ)whereL(θ)=1n∑i=1nℓ(f(xi;θ),yi)(损失函数)\min_{\the原创 2021-03-11 21:31:16 · 356 阅读 · 0 评论 -
Style Transfer from Non Parallel Text by Cross Alignment
Style Transfer from Non Parallel Text by Cross Alignment引入一个跨语料库(两个语料库有相同的content,但数据非并行)且能精确对齐的表达学习一个encoder,可以把input映射到一个与style无关的content表达。再将其传递给与style有关的decoder解码。不用VAE(变分自编码器),因为我们需要使潜在content表达更丰富与自然三个任务:情感转化,单词替换密码的破译,恢复语序和CV的风格转化一样的有原创 2021-03-10 16:10:10 · 543 阅读 · 0 评论 -
DeBERTa
DeBERTa[DeBERTa: Decoding-enhanced BERT with Disentangled Attention](https://arxiv.org/abs/2006.03654)code:https://github.com/microsoft/DeBERTaGPT2差不多的参数,15亿参数。。。keyDisentangled Attention(分散注意力)架构和bert类似,主要区别是Attention分数计算额外增加了位置信息BERT:每个输入层to原创 2021-03-09 20:53:23 · 1018 阅读 · 0 评论 -
UNILM
UNILMUnified Language Model Pre-training for Natural Language Understanding and Generationkey综合所有的LM - 像bert在NLU任务上表现很好,但是在NLG任务上表现就不太行,UNILM就可以兼备两个任务采用三个无监督目标:双向LM,单向LM,Sequence-to-Sequence LMUNILM模型单向LM,双向LM和Sequence-to-Sequence LM之间的transf原创 2021-03-09 20:21:31 · 410 阅读 · 0 评论 -
StructBERT(ALICE)
StructBERT(ALICE)STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDING效果仅次于ERNIE2.0,在GLUE上比ERNIE2.0高,目前国内GLUE绑最高作品先看两句话i tinhk yuo undresatnd this sentneces.研表究明,汉字序顺并不定一影阅响读。比如当你看完这句话后,才发这现里的字全是都乱的上面全是乱序,改进原创 2021-02-22 22:16:52 · 226 阅读 · 0 评论 -
ERNIE 1.0->ERNIE2.0
ERNIEERNIE: Enhanced Representation from kNowledge IntEgration百度在bert上的改进,适用于中文NLP模型知识增强bert通过字的搭配可以很容易推测出mask中的字,如乒乓[球],但是不能显示地对语义信息进行建模(如乒乓球)因此提出了短语和实体级别的mask方式,通过此方法融合外部知识[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3GfqbWy-1613551656503)(https:原创 2021-02-22 22:17:04 · 1183 阅读 · 2 评论 -
K-BERT
K-BERTK-BERT: Enabling Language Representation with Knowledge Graphbert在特定领域表现不好融合KG借鉴并改进ERNIE1、知识图谱中的关系信息没有被用到2、实体向量和词向量是使用不同的方法得到的,可能存在空间不一致3、对于实体数量巨大的大规模知识图谱,实体向量表将占据很大的内存上图输入句子:Tim Cook is currently visiting Beijing now关联的三元组信息:Apple原创 2021-02-22 22:17:15 · 437 阅读 · 0 评论 -
sentence-BERT
sentence-BERTSentence-BERT: Sentence Embeddings using Siamese BERT-Networks工程论文,应用效果很好在文本相似性任务上,之前的bert系列已经可以达到sota,但是bert要求句对拼接到一起传入模型,这样会造成巨大的计算开销如用10000条句子,大概会计算10000*10000/2=50000000次,如果使用bert要花65小时这就导致很多相似度计算、聚类等任务不能较好的进行这里sentence-BERT基于预训练过的原创 2021-02-17 15:56:38 · 860 阅读 · 1 评论 -
DistillBERT
DistillBERTDistilBERT, a distilled version of BERT: smaller,faster, cheaper and lighter不同于two-step,distillBERT在预训练的时候蒸馏知识蒸馏softmax的温度知识蒸馏的losssoft labels/soft prediction:teacher输出soft labels作为结果提供给student学习,最后得到distillation loss(Lsoft\mathcal{L原创 2021-02-17 15:55:23 · 625 阅读 · 0 评论 -
TinyBERT
TinyBERTTinyBERT: Distilling BERT for Natural Language Understanding对Bert encoding中Transformer进行压缩,使用two-step学习框架在精度允许的范围内节约计算资源和推理速度Transformer蒸馏Embedding-layer DistillationLembd=MSE(ESWe,ET)ES∈Rl×d0,ET∈Rl×dl:sequencelengthd0:studentembedding维度d:t原创 2021-02-17 12:56:49 · 247 阅读 · 0 评论 -
SpanBERT
SpanBERTSpanBERT: Improving Pre-training by Representing and Predicting Spans没有segment embedding,只有一个长句子,类似RoBERTa使用Span Masking将NSP改成了SBOSpan Masking首先引入了ERINE中的Whole Word Masking、Named Entity Masking、Phrase Masking这上面的做法能让效果提升,但是MASS模型中表明,对于这些词原创 2021-02-17 12:55:43 · 287 阅读 · 0 评论 -
ELECTRA
ELECTRAEfficiently Learning an Encoder that Classifies Token Replacements Accurately特点1:使用了新的模型预训练框架,采用generator和discriminator的结合方式,但不同于GAN2:将Masked Language Model的方式改为了replaced token detection3:模型小,设备要求低(小模型时表现好,大模型时效果不如其他) 将MLM换成replaced原创 2021-02-17 12:54:43 · 196 阅读 · 0 评论 -
ALBERT
ALBERTALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations主要优化在参数的减少Factorized embedding parameterization作者实验发现,把bert的hidden state增大效果会降低,所以反向考虑将参数减少(BERT-xlarge是hidden-state较大的)设embedding的维度为E,hidden state的维度为H,在bert中E=HE原创 2021-02-17 12:53:29 · 208 阅读 · 0 评论 -
RoBERTa与Adv-RoBERTa
RoBERTaRoBERTa:A Robustly Optimized BERT Pretraining Approach比起bert的改进1、训练的时间更长2、移除了next predict loss(就是没有NSP部分)3、训练的序列更长4、动态调整masking机制bert使用的随机掩码和预测token,bert在实现预处理的时候执行一次掩码,得到一个静态掩码如dupe_factor=10, epoch=40, 则每种mask的方式在训练中会被使用4次。(将训练数原创 2021-02-17 12:50:28 · 171 阅读 · 0 评论 -
NLPGym - A toolkit for evaluating RL agents onNatural Language Processing Tasks
NLPGym - A toolkit for evaluating RL agents onNatural Language Processing Tasks没有什么新思想,就是建立了一个把NLP和RL结合的工具,RL用于1、序列标注(sequence tagging)RL用于解决被结构化的预测任务:如命名实体识别、词性标注2、文本总结(text summarization)RL的agent选择要被用来总结的句子3、QA(question answering)RL的a原创 2021-02-17 12:48:36 · 109 阅读 · 0 评论 -
众包
Building a Conversational Agent Overnight with Dialogue Self-Play(Google) Building a Conversational Agent Overnight with Dialogue Self-Play领域:单域、多域对话系统对话收集机器对话机器框架(MLM),功能导向性流程,用于训练对话智能体1、通过自动化任务无关的步骤以减少建立对话数据集所需的代价,从而对话开发者只需要提供对话的任务特定的层面2、获得更高质量原创 2021-02-17 12:47:45 · 338 阅读 · 0 评论 -
XLNet: Generalized Autoregressive Pretrainingfor Language Understanding
XLNet: Generalized Autoregressive Pretrainingfor Language Understanding将bert的autoenconder(AE)模型换成了autoregressive(AR)模型autoregressive模型就是常规的语言概率分布模型,用极大似然p(X)=∏p(xt∣x<t)p(X)=\prod p(x_t|x_{<t})p(X)=∏p(xt∣x<t),也可以反向p(X)=∏p(xt∣x>t)p(X)=\pro原创 2021-02-17 12:41:05 · 515 阅读 · 0 评论 -
Position信息的处理
NLP问题中,位置的相关信息是非常重要的信息、 如在RNN中,就能自然的处理出位置的相关信息 但是在transformer模型中,由于self-attention的方法,会导致位置信息的丢失最简单的形式PE(positionembedding)=pos=0,1,2,...,T−1PE(position embedding)=pos=0,1,2,...,T-1PE(positionembedding)=pos=0,1,2,...,T−1这样处理:在文本长的时候,PE的值会很大,影响了原来.原创 2020-10-23 18:00:01 · 343 阅读 · 0 评论 -
PEGASUS
PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization针对文本摘要任务本身提出了新的监督式的预训练目标GSG在12个文本摘要数据集实现了SOTA(state-of-the-art)在低资源的情形下能取得不错的效果GSG(Gap Sentence Generation)GSG做和Bert类似的处理,将mask信息的层级提高到句子(就是每次mask掉几个句子),为了更接近生成式摘要,对于ma原创 2020-10-05 08:10:56 · 437 阅读 · 0 评论 -
Bert学习小记
BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understandingembeddinginput embedding = token embedding + segmentation embedding + position embeddingsegment embedding对于句子对来说(两个句子放在一起训练),EA表示坐标的句子,EB表示右边的句子[CLS]每个序列的第一个标记[SEP]句子原创 2020-10-01 16:32:38 · 257 阅读 · 0 评论 -
PassGAN论文学习
PassGAN用于对于泄漏的密码库中还原真实的密码分布传统密码爆破工具HashCat和John the Ripper(JTR)可以每秒对密码hash值检测数十亿的密码来破译hash值,还能根据一些规则生成新密码缺点:1、这些规则只要当前的数据集中表现良好,创造一个适应新数据集的规则很麻烦,还需要相关的专业知识2、这些规则基于用户的直觉,而不是大数据PassGAN的优点1、通过密码数据分析,而不是手动分析2、能生成高质量的密码,且能和老湿规则媲美,也能补充密码规则3、能生成无原创 2020-09-23 14:31:23 · 919 阅读 · 0 评论 -
Professor forcing算法
Professor forcing引入前的想法teacher forcing的不足teacher forcing的方法通过将被观测的序列值作为训练过程中的输入和使用该网络自己的提前一步预测(one-step-ahead-predictions)l来进行多步采样比如时间序列的条件分布模型:P(y1,y2,...,yT)=P(y1)∏t=1TP(yt∣y1,...,yt−1)P(y_1,y_2,...,y_T)=P(y_1)\prod_{t=1}^T P(y_t|y_1,...,y_{t原创 2020-09-22 08:17:43 · 837 阅读 · 0 评论 -
NL2SQL
用途1、NL2C++? NL2Python?2、后端查询什么是pointer network主要用于解决组合优化问题(TSP,Convex Hull),实际上是Seq2Seq中encoder和decoder的扩展,主要解决的问题是输出字典长度不固定问题(或说离散序列)传统Seq2Seq解决一些翻译问题,输出向量的长度一般就是字典的长度(一般是个超参数,提前订好了)就比如求二维凸包的问题(Convex Hull),属于n个seq,输出m个seq。但是在n不一样的时候就不work了原创 2020-09-22 08:15:36 · 1052 阅读 · 0 评论 -
NLP基础知识
NLP基础知识自带库NLTK:英文的库jieba:中文的库文本处理流程分词英文用NLTK,中文用jieba,比较难处理的时候可能要借助正则表达式复杂的词形1、inflection变化:不影响词性walk->walking->walked2、derivation引申:影响词性nation(n)->national(adj)->nationalize(v)词形归一化1、Stemming词干提取:把不影响词性的后缀去掉walking->原创 2020-09-20 16:42:30 · 182 阅读 · 0 评论 -
隐马尔科夫模型(HMM)学习小记
隐马尔科夫模型(HMM)基于时序的概率模型定义Q=[q1,q2...,qN]是所有可能的状态集合V=[v1,v2...vM]是所有目标集合I=[i1,i2...iT]表示长度为T的状态序列O=[o1,o2...oT]表示长度为T的观测序列概率转移矩阵A=[aij]n×naij=P(it+1=qj∣it=qi)(在t时刻)观测概率矩阵B=[bj(k)]N×Mbj(k)=P(ot=vk∣it=qj)初始状态概率向量π=(πi)πi=P(i1=qi)Q=[q_1,q_2...,q_N]是所有可能的状态原创 2020-09-18 14:47:36 · 262 阅读 · 0 评论 -
LSTM学习小记
LSTM学习小记RNN缺点:对所以信息都进行了存储,数据没有选择性,计算量大;梯度衰减严重。基于以上缺点。X0、X1与输出h t+1之间的距离太长,RNN对长时间记忆有明显的不足。提出了LSTM网络。C:控制参数。决定什么样的信息会被保留什么样的会被遗忘。C值与输出相乘决定遗忘的多少。C的范围为[0,1],当C=0时,全部遗忘;当C=1时,全部记忆;当C=0.5时,部分记忆。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B6RY6Ws9-160028原创 2020-09-23 14:32:50 · 254 阅读 · 0 评论