![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 90
lzk_nus
这个作者很懒,什么都没留下…
展开
-
Hierarchical Graph Network for Multi-hop Question Answering 论文笔记
Hierarchical Graph Network for Multi-hop Question Answering 论文笔记2020 EMNLP,Microsoft 365, 这篇文章所提出的层级图模型是在leaderboard上排名比较高的一个模型。Overview这篇文章同样是引入图表示学习来做多跳推理,但是本文在建图上做了改进和创新,提出Hierarchical Graph。作者认为之前基于图表示学习的方法有两个不足:一是图只被用来预测答案,没有充分地去寻找supporting fact;二原创 2022-02-20 16:30:12 · 1997 阅读 · 0 评论 -
《Dynamically Fused Graph Network for Multi-hop Reasoning》 论文笔记
Dynamically Fused Graph Network for Multi-hop Reasoning 论文笔记2019ACL,SJTU & ByteDance,这是一篇融合了图表示学习来做多跳推理的文章。Overview本文作者提出的模型叫做DFGN,作者首先谈到HotpotQA这种类型的数据集带给人们两大挑战:数据集中给出的paragraph并不都是与问题相关的,模型需要过滤掉噪声。针对这一问题,之前的工作提出构建基于paragraph的entity graph,然后通过图神经原创 2022-02-20 11:11:57 · 808 阅读 · 0 评论 -
Multi-hop Reading Comprehension through Question Decomposition and Rescoring 论文笔记
Multi-hop Reading Comprehension through Question Decomposition and Rescoring2019年的一篇在Hotpot数据集上进行实验的文章,由UW和AllenAI共同发表。Overview这篇文章是在HotpotQA数据集提出后发表的,针对HotpotQA所提出的复杂问题多跳推理任务提出解决方案。本文所提出的模型叫做DECOMPRC,核心在于DECOMP,也就是对复杂问题进行分解。这种做法在KBQA中也出现过,对应的模型叫做TextRa原创 2022-02-16 21:20:14 · 1668 阅读 · 1 评论 -
HotpotQA数据集
HOTPOTQA: A Dataset for Diverse, Explainable Multi-hop Question AnsweringDatasetHotpotQA是2018年新提出的一个多跳推理问答数据集,本文主要来看数据集的格式。从图上可以看出数据集还是比较大的,训练集分为了三个难度:easy、medium、hard,其中medium占主要部分。整个数据集其实还可以分成两类:distractor和fullwiki。distractor的数据包含以下的几个部分:问题问题的类型原创 2022-02-16 21:18:07 · 2336 阅读 · 0 评论 -
《Learning to Answer Complex Questions over Knowledge Bases with Query Composition》论文笔记
Learning to Answer Complex Questions over Knowledge Bases with Query Composition这是一篇密歇根安娜堡发表在CIKM上的文章,主题为KBQA,依然是SP-based。Overview这篇文章处理的是复杂问题,主题方法还是通过SP生成query graph,然后使用神经网络的方法进行语义匹配找到最佳的查询图,最后在KB中执行。但是本文的最大创新点在于:作者假设complex question可以被分解为多个simple que原创 2022-02-06 08:54:38 · 382 阅读 · 1 评论 -
《Bidirectional Attentive Memory Networks for Question Answering over Knowledge Bases》论文笔记
Bidirectional Attentive Memory Networks for Question Answering over Knowledge Bases2019年NAACL的一篇文章,依然是利用深度学习方法解决KBQA问题Overview由于最近KBQA任务中深度神经网络取得了很大的成功,本文也采用了深度学习的做法(用到了很少量的人工特征),属于IR-based + DL的范畴。作者认为之前的IR-based的做法没有怎么关注question与KB之间的关系,因此本文通过大量的atten原创 2022-02-06 08:52:47 · 442 阅读 · 0 评论 -
PullNet: Open Domain Question Answering with Iterative Retrieval on Knowledge Bases and Text 论文笔记
PullNet: Open Domain Question Answering with Iterative Retrieval on Knowledge Bases and Text2019年,EMNLP,Google, 本文是IR-based的方法来解决KBQA任务,属于是GRAFT-Net工作的延续和改进。Overview本文作者将open-domain问题概括为三大类别:基于文本回答,基于KB回答、两者结合回答。而本文在GRAFT-Net的基础上,提出了一种迭代的信息检索方法,并结合使用KB和原创 2022-01-28 17:44:20 · 980 阅读 · 0 评论 -
《UHop: An Unrestricted-Hop Relation Extraction Framework for Knowledge-Based Question Answering》论文笔记
UHop: An Unrestricted-Hop Relation Extraction Framework for Knowledge-Based Question Answering2019年NAACL上的一篇文章,主题为KBQA中的关系抽取。Overview这篇文章提出的是一个新的关系抽取方法,并不是一个完整的SP-based的KBQA模型。本文依旧旨在处理相对复杂的问题,我们按照“跳数”来区分simple和complex问题,一般来说simple question只需要one-hop rea原创 2022-01-27 16:20:01 · 567 阅读 · 0 评论 -
《Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases》论文笔记
Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases这是2020年SMU的Jing Jiang教授课题组发表在ACL上的一篇文章,主题为KBQA、Complex Question、Query Graph GenerationOverview作者提到当前的复杂问题主要有两类特点:Questions with Constraints:问题中有一些限制,例如 “Who is the yo原创 2022-01-25 16:44:26 · 404 阅读 · 0 评论 -
《Knowledge Base Question Answering via Encoding of Complex Query Graphs》论文笔记
Knowledge Base Question Answering via Encoding of Complex Query Graphs这篇文章是上交和阿里于2018年发表在ACL上,主题依然是与query graph相关,属于SP + DL的范畴。Overview作者提到之前的KBQA做法处理的多是简单问题,不能很好地解决复杂问题。对于复杂的问题或者说复杂的query graph,如何进行embedding是一大挑战。最近一段时间,SP + NN的做法在简单的问答上取得了非常好的效果,因此本文也原创 2022-01-23 11:55:05 · 2365 阅读 · 0 评论 -
CrossAttention KBQA
《An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge》论文笔记这篇文章于2017年发表在ACL上,个人认为是在MCCNNs这个模型的基础上所作的增量式的工作,两者结构非常相似。Overview本文的任务依然是给定一个问题,模型根据知识库生成一组答案。这篇文章也是属于IR-based的范畴,根据主题词从知识库中提取出topic grap原创 2022-01-21 21:52:48 · 9000 阅读 · 0 评论 -
A State-transition Framework to Answer Complex Questions over Knowledge Base 论文笔记
A State-transition Framework to Answer Complex Questions over Knowledge Base这篇是2018年北大发表在EMNLP上的文章,核心侧重于对query graph的构建。之前的方法不能很好的处理复杂问题,比如多跳推理等,因此本文旨在提出一个更好的query graph构建方式,叫做state-transition framework。Complex Question本文在introduction部分对复杂问题带来的挑战进行了总结概括原创 2022-01-21 21:50:59 · 880 阅读 · 0 评论 -
《Question Answering over Freebase with Multi-Column Convolutional Neural Networks》论文笔记
《Question Answering over Freebase withMulti-Column Convolutional Neural Networks》论文笔记这篇文章于2015年发表在ACL,根据KBQA任务做法的宏观分类,这篇文章被《A Survey on Complex Question Answering overKnowledge Base: Recent Advances and Challenges》这篇综述划分为Information Retrieval的范畴,但是它与传统的原创 2022-01-19 17:42:19 · 1894 阅读 · 0 评论 -
DPRQA论文笔记
Dense Passage Retrieval for Open-Domain Question Answering这篇文章依然是关于开放问答领域,由Facebook发表,重点研究passage retrieval模块。Overviewopen-domain question answering 通常有两大模块: Passage Retrieval 和 Reader,前者是针对问题在数据库中寻找与该问题有关的文章,后者是对文章和问题进行encode并预测答案。本文重点研究前者,即训练出更好的Passa原创 2022-01-12 00:28:49 · 413 阅读 · 0 评论 -
DrQA论文笔记
Reading Wikipedia to Answer Open-Domain Questions本文是一篇很经典的关于开放领域问答的文章,与之前的几篇文章不同,开放式领域的问答系统是基于一种Retriever-Reader的架构,Retriever通过大规模机器阅读理解提取相关度高的文章,再用Reader进行特征提取。Overview本文的开放式QA系统有两个部分组成:Document Retriever:作者使用Wikipedia作为资料库,针对不同的问题进行相关文章段落的提取,提取出文章后再原创 2022-01-12 00:27:30 · 378 阅读 · 0 评论 -
SLQA论文笔记
Multi-Granularity Hierarchical Attention Fusion Networks for Reading Comprehension and Question Answering 论文笔记这是阿里2018年发表在ACL上的一篇文章,创新性的使用了层级attention结构,并加入了fusion模块,在SQuAD数据集上取得了优异的表现。Overview作者的motivation来源于人类对阅读理解题目的处理:先浏览一遍文章和问题,然后把问题和文章进行联系,接着把答案的原创 2022-01-10 22:30:14 · 525 阅读 · 0 评论 -
Masque论文笔记
Multi-Style Generative Reading Comprehension这是2019年发表在ACL的一篇文章,与前面所读的几篇RC、QA文章不同,这篇文章关注的是生成式的RC模型,并且引入多风格的答案生成。Overview以往的QA模型通常是抽取式的,即从passage中抽取出一段区间作为预测答案(span prediction),因此这篇文章希望设计出一种生成式的模型,并且希望通过单个模型生成不同风格的答案。这里的不同风格我的理解是传统QA基于span抽取的和语言模型进行生成的这两种原创 2022-01-10 22:28:19 · 179 阅读 · 0 评论 -
BiDAF论文笔记
BI-DIRECTIONAL ATTENTION FLOW FOR MACHINE COMPREHENSION 论文笔记BiDAF是在2017年发表在ICLR上的一篇文章,从SQuAD leaderboard 上来看,在各种预训练模型问世之前,BiDAF效果是非常好的,是当时的SOTAOverview简要概括,BiDAF主要在两个部分做了工作,一个是embedding的部分,另一个是attention的部分。在embedding部分,作者从两个维度对context和query进行embedding:原创 2022-01-10 22:21:07 · 602 阅读 · 0 评论 -
HAN论文笔记
Hierarchical Attention Network《Hierarchical Attention Network》一文提出了一种层次化的注意力网络。在Seq2Seq里的注意力机制,我们其实做的是word-level的attention,而这篇文章的亮点在于它提出双层attention,即word-level和token-level。Model Structure整个HAN其实主要包含三大部分:Word EncoderWord-level AttentionSentence-level原创 2022-01-10 22:18:33 · 571 阅读 · 0 评论 -
DPCNN论文笔记
DPCNN论文笔记《Deep Pyramid Convolution Neural Network》是对TextCNN网络的加深,DPCNN这篇文章挺难读的,内容量很大,我们仔细来看一下OverviewDPCNN这篇文章提出了一种效率比较高、基于单词的深度卷积神经网络,主要应用于文本分类领域。在Abstract和Introduction部分,作者提到了三条我认为很有价值的信息:作者没有用基于字符的CNN,因为他们发现即便是浅层的TextCNN效果也要比CharCNN好,并且计算的复杂度要低很多通原创 2022-01-10 22:17:20 · 535 阅读 · 0 评论 -
fasttext论文笔记
fastTextFasttext是一个专门用于文本分类和文本表示的模型,由于它模型结构非常的简单,训练效率很高,分类效果也非常好,因此是一个非常热门的模型。Background这是一篇2017年的文章,所以作者首先提到了当时神经网络已经在NLP领域流行了,但是神经网络训练起来太慢,因此很难使用庞大的数据集。接着作者提到文本分类中的一个非常实用的baseline就是线性分类器。举例来说,用Bag-of-Words + LR / SVM 训练一个线性模型往往已经能得到一个不错的效果,同时训练速度是非常快的原创 2022-01-10 22:04:08 · 806 阅读 · 0 评论 -
CharCNN论文笔记
CharCNN之前看了TextCNN,也就是基于词级别的CNN,卷积的时候是对多个词向量(window size)进行卷积。Character-level Convolutional Networks for TextClassification 这篇文章从一个新的视角来看待文本数据,那就是字符(character),本文通过实现字符级别的卷积神经网络来做文本分类任务,与传统文本分类方法和深度神经网络如CNN、RNN相比,在多个数据集上取得了不错的效果。BackgroundCharCNN主要针对的还原创 2022-01-10 22:02:42 · 500 阅读 · 0 评论 -
BiLSTM-Attention论文笔记
BiLSTM-Attention《Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification》论文笔记Overview这篇文章提出了一种特征提取和文本表示的模型。作者提到在文本分类领域,常用的监督学习需要大量的人工标注样本,并且常常需要构建如POS-tagging、NER、dependency parsing等更高级的特征,耗时耗力。为了解决这样的问题,作者提出了这种Attentio原创 2022-01-10 22:01:03 · 3256 阅读 · 0 评论 -
match-LSTM论文笔记
Match-LSTM with Ans-Ptr论文笔记《MACHINE COMPREHENSION USING MATCH-LSTM AND ANSWER POINTER》论文笔记Overview本文是在SQuAD v1.1数据集出世后第一个采用end-to-end的深度学习方法的paper。模型的主要结构是对已有的两个模型的结合:match-LSTM(Jiang&Wang, 2016)和Pointer Net(Vinyals et al., 2015)。相较于人工feature engine原创 2022-01-09 17:54:17 · 368 阅读 · 0 评论 -
QANet论文笔记
QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION 论文笔记QANet是2018年发表在ICLR上的一篇文章,由CMU和Google合作完成。这篇文章也是第一篇在MRC&QA领域摆脱了RNN+attention模式的文章,感觉主要得益于attention is all you need。本文的motivation是认为RNN的效率还是不太行,再加上CNN和self-atte原创 2022-01-09 00:20:15 · 733 阅读 · 1 评论 -
R-NET论文笔记
Gated Self-Matching Networks for Reading Comprehension and Question Answering 论文笔记这篇paper提出了一种MC&QA领域中的模型,主要是在前人工作的基础之上进行改进提升,模型也叫做R-NET,最后得到的效果是非常好的。Overview总的来说,我认为这篇文章有两大核心部分:Gated Attention-based Recurrent Neural Network:这一部分是在match-LSTM的基础之上做原创 2022-01-09 00:16:37 · 720 阅读 · 0 评论 -
Word2Vec模型详解
文本向量化表示对文本进行完预处理后,接下来的重要任务就是将文本用向量化的形式进行表达。在本章节中,我们将尽量全面地覆盖文本向量化表示方法,重点关注Word2Vec以及目前各种常用的词向量。基于统计方法首先,我们来看基于统计方法的向量化表示,包括One-Hot Encoding,,BOW,TF-IDF,矩阵分解One-Hot Encoding独热编码是比较容易想到的一种编码方式,但独热编码显然无法表示语义信息和词语之间的关系,而且独热编码矩阵是一个庞大并且稀疏的矩阵。import numpy as原创 2022-01-09 00:20:54 · 2074 阅读 · 0 评论 -
Transformer模型详解
Transformer上一节中我们详细介绍了Seq2Seq模型和Attention机制的应用,首先来看即便是带有Attention机制的Seq2Seq模型仍存在的问题。由于不管是Encoder还是Decoder,我们都使用了RNN系列模型,因此梯度问题还是无法避免。在2017年,一篇名为Attention is you need的论文一经发表,就从此掀起了研究Transformer的热潮。在本节,我们就详细的来剖析一下最Vanilla版本的Transformer。模型总体结构Transformer模型原创 2022-01-09 00:21:04 · 2208 阅读 · 0 评论 -
TextCNN模型详解
Text CNNOverview本节我们来重点介绍一下卷积神经网络在文本分类问题当中的应用。CNN网络在图像领域已经占据了主导地位,在文本领域也有不错的表现。在 "Convolutional Neural Network for Sentence Classification" 一文中,作者使用了CNN进行文本分类任务,取得了非常不错的效果事实上在很多情况下,Multi-Window-Size的CNN正确率和LSTM相差无几,下面我们来看一看模型的结构。Model Structure我们知道在C原创 2022-01-09 00:21:18 · 2894 阅读 · 0 评论 -
成分句法分析&依存文法分析
Syntactic Structure句法结构其实是语言学中非常重要的一个分支。同样,在NLP领域,句法结构也是很重要的。如果能在模型中考虑到句法特征,那么对于例如说文本生成任务,模型的效果肯定会有所提升。现在,主流的句法结构分析方法有两种:Constituency Parsing(成分句法分析)与Dependency Parsing(依存文法分析)。Dependency Parsing依存文法分析考虑的是句子中单词与单词之间的依存关系,而这种依存关系其实就是我们学习的语法,例如主谓、动宾、形容词修饰原创 2022-01-09 00:08:42 · 1779 阅读 · 0 评论 -
Seq2Seq模型详解
Seq2Seq在RNN模型需要解决的问题中,有一类N v M的问题,即输入输出不等长问题。例如Machine Translation、Summarization就是这类问题的一些经典粒例子。这种结构又叫做Seq2Seq模型,或者叫Encoder-Decoder模型。Intuition我们以机器翻译问题为例,对于机器翻译问题,我们的任务是将一种语言的一句话翻译成另一种语言的一句话。那么显而易见的是,这就涉及到NLU(文本理解)和NLG(文本生成)任务。Seq2Seq中的NLU首先,我们需要使用一种语原创 2022-01-08 00:25:26 · 1920 阅读 · 0 评论 -
RNN系列模型
RNN及其变体RNN为什么需要RNN?这里以Hung-yi Lee给出的例子为例当TaiPei前的单词不同时,TaiPei所表示的含义是不同的。如果用一般的neural network来训练,是实现不了这个任务的,因为在一般的feed forward网络中,相同的input会得到相同的output。因此,我们需要一种能够处理序列信息的神经网络,而RNN(Recurrent Neural Network)能够很好的解决这一问题。RNN的结构RNN和结构和一般的neural network很像,但原创 2022-01-08 00:21:24 · 869 阅读 · 0 评论 -
预训练模型(持续更新)
GPTGPT模型也是当下非常火的一个预训练模型,GPT和BERT刚好相反,它采用的是Auto-Regressive,使用的是Transofrmer的Decoder部分,是一个单向的语言模型,Auto-Reressive模型的目标函数是maximize L(θ)=∑logp(xt∣x<t,θ)maximize\ L(\theta)=\sum{log{p(x_t|x_{<t},\theta)}}maximize L(θ)=∑logp(xt∣x<t,θ)。在实际操作过程原创 2022-01-08 00:15:29 · 610 阅读 · 0 评论 -
N-gram模型详解
语言模型(Language Model)基本概念什么是语言模型?简言之,语言模型可以理解为是一种用于判度一个句子是否通顺的模型。举例来说,假设我们有一个训练好的语言模型modelmodelmodel,给定两个句子:我喜欢AI、喜欢我AI。显然第一个句子更通顺,或者说出现的可能性更大,所以modelmodelmodel,给出的结果就是P(我喜欢AI)>P(喜欢我AI)P(我喜欢AI)>P(喜欢我AI)P(我喜欢AI)>P(喜欢我AI)。于是,我们得到了语言模型的目标:计算一个句子或者一原创 2022-01-08 00:13:07 · 4783 阅读 · 0 评论 -
CRF条件随机场
有向图和无向图在正式进入Linear CRF的介绍之前,我们先来看一下有向图和无向图之间的区别有向图我们之前介绍了HMM模型,HMM模型就是一个有向图模型如图,我们来看一下如何计算有向图的联合概率分布p(a,b,c,d,e)=p(a∣b)p(c∣b,d,e)∗p(b)p(d)p(e)p(a,b,c,d,e)=p(a|b)p(c|b,d,e)*p(b)p(d)p(e)p(a,b,c,d,e)=p(a∣b)p(c∣b,d,e)∗p(b)p(d)p(e)很简单,只需要根据依赖关系即可。无向图原创 2022-01-08 00:03:10 · 1253 阅读 · 0 评论 -
HMM隐马尔科夫模型
隐马尔科夫模型(HMM)隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔可夫链随机生成的状态的序列,称为状态序列(state sequence);每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列(observation sequence)。序列的每一个位置又可以看作是一个时刻。生成式模型vs判别式模型给定任务:已知序列xxx,求标签yyy,我们要做的实际上就是求p(Y∣X)p(原创 2022-01-07 21:52:16 · 1343 阅读 · 0 评论 -
SG-Net
SG-Net: Syntax-Guided Machine Reading Comprehension这是2020年上交发表在AAAI上的一篇文章,本文在MRC中引入了语法结构信息,这也是我在读《Improving the Robustness of Question Answering Systemsto Question Paraphrasing》这篇文章时所想到的一个创新点。Overview本文的motivation是之前所有用self-attention机制的QA模型都存在一个问题:atte原创 2022-01-06 13:55:01 · 693 阅读 · 0 评论