笔记
文章平均质量分 93
我黑切呢**
这个作者很懒,什么都没留下…
展开
-
Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index(DENSPI)
Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index nlp.cs.washington.edu/denspi Training takes 16 hours (64-GPU hours) and indexing takes 5 days (500 GPU-hours)1.摘要现有的开放域问答(QA)模型不适合实时使用,因为它们需要针对每个输入查询按需处理多个长文档。 在本文中,作者介绍了文档短...原创 2021-01-20 16:22:57 · 311 阅读 · 0 评论 -
KHAMA(2019IJCAI)
Knowledge-enhanced Hierarchical Attention for Community Question Answering with Multi-task and Adaptive Learning介绍作者认为社区QA存在下列问题:外部事实知识没有得到充分利用(KB)CQA模型应当考虑输入序列的不同语义级别(attention)现有的CQA模型没有考虑输入question的类别,可能丢失重要特征(多任务:QA+question 分类)现有的CQA模型不能有效的处理.原创 2021-01-14 19:22:51 · 198 阅读 · 0 评论 -
知识指导文本检索和阅读:graph-retriever+graph-reader(2020 University of Washington)
Knowledge Guided Text Retrieval and Reading for Open Domain Question Answering介绍在基于文本的open-domain QA中,如何在不牺牲覆盖面的情况下最好地利用知识库(KB)仍然是一个悬而未决的问题。之前的工作已经将知识库事实转化为句子,以提供额外的证据在本文中,但是不显式地使用知识库图结构。作者展示了这种结构对于在基于开放域文本的问答中检索文本段落和融合它们之间的信息是非常有益的。作者介绍了一种基于文本的开放领域...原创 2021-01-14 15:51:23 · 587 阅读 · 1 评论 -
DPR
Dense Passage Retrieval for Open-Domain Question Answeringhttps://github.com/facebookresearch/DPR摘要开放域问题回答依赖于有效的段落检索来选择候选上下文,其中传统的稀疏向量空间模型,如TF-IDF或BM25,是事实上的方法。作者表明检索实际上可以单独使用密集表示来实现,其中embedding是通过简单的dual-encoder framework从少量的questions 和 passages 中学习的.原创 2021-01-12 17:08:42 · 1982 阅读 · 0 评论 -
Multi-Task-DNN(2019ACL)
Multi-Task Deep Neural Networks for Natural Language Understanding https://github.com/namisan/mt-dnn.ModelLexicon Encoder ( l1):输入XXX = {x1x_1x1,…,xmx_mxm},mmm个token,X可以是单个句子,也可以是多个句子的打包首个token:[CLS]句子分割:[SEP]embedding:word, segment, and pos...原创 2020-12-30 18:37:54 · 266 阅读 · 0 评论 -
DeepRank(17’CIKM)
DeepRank: A New Deep Architecture for Relevance Ranking in Information Retrieval htps://github.com/pl8787/textnet-release.Motivation人类判断文本匹配过程:检测相关位置确定局部相关性聚集本地相关性以输出相关性标签DeepRank模拟上述人类判断过程。问题定义查询: qqq = (w1w_1w1, . . . ,wMw_MwM)文档: ddd...原创 2020-12-28 16:12:26 · 552 阅读 · 1 评论 -
Deep Syntax-Semantics Model(2020 EMNLP)
Improving Text Understanding via Deep Syntax-Semantics Communication动机Syntax-Tree model与sequential semantic model相结合,提高下游任务性能。Introduction句子中句法和语义的比较。相同的颜色表示相同(相似)的语义目标。Model多层结合模型定义句子SSS = {w1w_1w1,…,wnw_nwn},对应的sequential 表示:树表示:Sequen..原创 2020-12-23 15:01:53 · 212 阅读 · 0 评论 -
VD-BERT(统一视觉对话 2020 EMNLP)
VD-BERT: A Unified Vision and Dialog Transformer with BERThttps://github.com/salesforce/VD-BERT.本文贡献展示了BERT可以通过简单的视觉基础训练来有效地适应视觉对话任务,以捕捉复杂的视觉对话交互。此外,VD-BERT是第一个支持discriminative和 generative训练设置的统一模型,没有显式解码器。不需要对外部视觉语言数据进行预处理,模型在视觉对话基准的discriminative设.原创 2020-12-21 15:11:06 · 2947 阅读 · 0 评论 -
跨语言检索的QA(google research EMNLP 2020)
LAReQA: Language-Agnostic Answer Retrieval from a Multilingual Pool trained models are available at https://tfhub.dev/s?q=lareqa. dataset and evaluation code are available at https://github.com/google-research-datasets/lareqa.提出一个Language-Agnostic的检..原创 2020-12-21 12:59:42 · 575 阅读 · 0 评论 -
DiSAN(18’AAAI)
DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding https://github.com/taoshen58/DiSANmotivation取代RNN和CNN,提出只有attention组成的适用于不同NLP任务的框架Multi-dimensional Attention传统attention和mulit-attention对比(均为MLP类型):传统attention:略m..原创 2020-12-12 21:32:59 · 332 阅读 · 0 评论 -
POSIT-DRMM(18’Google)
Deep Relevance Ranking Using Enhanced Document-Query Interactions https://github.com/nlpaueb/deep-relevance-ranking.Introduction在DRMM(它使用对上下文不敏感的术语编码和查询-文档术语交互)的基础上,整个模型中注入了丰富的对上下文敏感的编码。并研究了多种变体。都为基于交互的神经检索模型。预备知识DRMM(匹配直方图):PACRR和PACRR-DRMM..原创 2020-12-12 17:06:24 · 210 阅读 · 0 评论 -
查询建议的反馈记忆网络(18‘WWW)
Query Suggestion with Feedback Memory Networkidea模拟用户与搜索引擎的互动,对用户对搜索结果的偏好建模以获得查询建议。Model(FMN)问题定义给定一个查询qqq,它的搜索结果DDD = {d1d_1d1,d2d_2d2,…,dnd_ndn},他的点击位置为ppp,即文档dpd_pdp,FMN考虑点击文档作为正例D+D^+D+,跳过的文档作为负例D−D^-D−模型框架FMN将D+D^+D+和D−D^-D−编码到正反馈memory..原创 2020-12-11 15:03:55 · 2785 阅读 · 0 评论 -
RoBERTa记录
RoBERTa: A Robustly Optimized BERT Pretraining Approach相比于BERT的改进:用更大的batchs、更多的数据对模型进行更长时间的训练去除next sentence prediction 目标使用较长序列的训练动态改变应用于训练数据的mask模式。...原创 2020-12-10 19:42:55 · 73 阅读 · 0 评论 -
GPT家族
GPT无监督的预训练(LM)+有监督微调(task-specific)(多任务学习)Unsupervised pre-training语料库UUU = {u1u_1u1,…,unu_nun},LM(multi-layer Transformer decoder)损失:具体:Supervised fine-tuning输入句子:{x1x_1x1,…,xmx_mxm},lable:yyyLoss:Unsupervised pre-training LM辅助 Supervise.转载 2020-12-10 15:21:27 · 260 阅读 · 0 评论 -
ALBERT记录
题目:ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS https://github.com/google-research/ALBERT.动机降低模型大小,并改进性能采用两种参数简化技术:factorized embedding parameterization(对Embedding因式分解)。Cross-layer parameter sharing.相比于BERT的改进...原创 2020-12-10 12:57:17 · 108 阅读 · 0 评论 -
Transformer for ranker(EMNLP 2020 )
题目:Modularized Transfomer-based Ranking Framework 代码: https://github.com/luyug/MORES贡献:在这项工作中作者们将 Transformer ranker 模块化为单独的模块,以进行文本表示和交互。作者将展示该设计如何使用离线预计算表示和轻量级在线交互来显着加快排名。模块化设计也更易于解释,并为 Transformer 排名中的排名过程提供了启示。作者在大型监督排名数据集上的实验证明了 MO...原创 2020-12-09 22:12:59 · 263 阅读 · 0 评论 -
图神经匹配(2020CIKM)
标题:Learning Better Representations for Neural InformationRetrieval with Graph Information动机神经网络排序模型近年来在信息检索领域得到了广泛的关注,并取得了良好的排名性能。然而,这些检索模型大多侧重于捕获查询和文档之间的文本匹配信号,而没有考虑可能有助于检索任务的用户行为信息。具体来说,用户的点击和查询重构行为可以分别用点击通过二部图和会话流图来表示。这种图形表示包含了丰富的用户行为信息,可以帮助我们更好地理解用.原创 2020-12-03 20:39:01 · 528 阅读 · 0 评论 -
DSSM笔记
模型:INPUT将一个单词序列的文档ddd转换为网络输入层的向量表示xxx需要两个步骤:将单词中的每个单词转换为单词向量通过连接这些单词向量来构建第一步:one-hot表示每一个word(N=150K)为了获得质量更高的词向量,同时映射WWW得3-letter向量(30K)。最后链接Convolutional Layerwindow大小:3c是窗口大小为3的单词的上下文向量Max-pooling LayerFully-Connected Layers训练DSSM参数:.原创 2020-09-23 18:09:31 · 170 阅读 · 0 评论 -
Deep Learning Powered In-Session Contextual Ranking using Clickthrough Data
IDEA用户与搜索引擎的交互提供了许多线索,可以利用这些线索通过个性化来提高搜索结果的相关性。上下文信息(查询历史、单击的文档等)提供了有关用户搜索意图的强烈信号,可用于个性化搜索体验和改进web搜索引擎。问题当前搜索引擎采用“AveQueryOverlap”,它计算当前会话中连续查询对之间的token重叠。缺少从历史查询和当前查询中获得的一些语义信息。检查是否具有以前查询中的一些域特征,例如一个用户在上个月发布的所有查询;它还包含一些关于用户点击行为的分布信息,以反映用户的域偏好,但并不严格与.原创 2020-09-23 12:58:30 · 149 阅读 · 0 评论 -
NLP学习笔记(ELMo)
IDEA好的词表征模型应该同时兼顾两个问题:一是词语用法在语义和语法上的复杂特点;二是随着语言环境的改变,这些用法也应该随之改变。每一个词语的表征都是整个输入语句的函数。具体做法就是先在大语料上以language model为目标训练出bi-LSTM模型,然后利用LSTM产生词语的表征。ELMo故而得名(Embeddings from Language Models)。 在之前2013年的word2vec及2014年的GloVe的工作中,每个词对应一个vector,对于多义词无能为力。ELM.原创 2020-09-19 12:25:07 · 792 阅读 · 0 评论 -
Learning to Rank(RankNet)
IR搜索这一过程的本质是自动选取与用户输入的关键词(query)最相关的一组文档(docs,或称网页, urls)的过程,目前主要通过如下两个步骤实现:query-doc匹配:寻找与当前输入的query相关度高的docs;高相关度docs精确排序:对1中返回的docs,选取更多特征并按照用户点击该doc的可能性大小精确排序。如图Learning to Rank的三种算法1.单文档方法(pointwise)对于某一个query,它将每个doc分别判断与这个query的相关程度,由此将docs转载 2020-09-18 13:56:44 · 346 阅读 · 0 评论 -
MaskGAN(2018-ICLR)
MaskGAN结构:Seq2SeqGenerator对于离散序列xxx=(x1x_1x1,····,xTx_TxT),生成一个长度相同的二进制掩码mmm=(m1m_1m1,···,mTm_TmT),其中每个mTm_TmT∈∈∈{000,111},选择将保留哪些标记。如果掩码为000,则时间ttt,xtx_txt处的令牌被替换为特殊掩码令牌,如果掩码为111,则保持不变。编码器读取mask序列,将其表示为mmm(xxx),其中掩码是按元素应用的。编码器在解码期间为MaskGAN提供对未.原创 2020-09-14 17:43:59 · 556 阅读 · 0 评论 -
RankGAN(NIPS 2018)
Adversarial Ranking for Language Generation贡献本文提出了一个新的对抗性学习框架RankGAN,以产生高质量的语言描述。RankGAN在一个对抗性的框架下,从机器书写和人类书写句子之间的相对排名信息中学习该模型。在所提出的RankGAN中,将discriminator的训练放宽为一个learning-to-rank 优化问题。具体地说,新的对抗网络由两个神经网络模型组成,一个生成器和一个ranker。与执行二元分类任务不同,对ranker进行训练,将机器写..原创 2020-09-14 12:24:17 · 902 阅读 · 0 评论 -
HRED(CIKM)
Query-Level Encoding对于查询QmQ_mQm={wwwm_mm,,,1_11,…,wwwm_mm,,,N_NNm_mm}hhhm_mm,,,0_00=0(初始0向量)Session-Level Encoding一个session中得查询集合q1q_1q1,…,qMq_MqMsss0_00=0(初始0向量)Next-Query Decoding根据先前得查询预测下一个查询:解码RNN每一个当前隐藏状态用于计算下一个词出现得概率:ooo..原创 2020-09-12 20:22:49 · 1113 阅读 · 0 评论 -
SV-LSTM(2016AAAI)
问题提出:现有的方法仅限于通过直接涉及单词和短语级别的表示来很好地捕捉上下文化的本地信息。单词/短语级别的表示是局部的(通常取决于固定窗口大小的上下文),从整个句子的观点看,反应词/短语的意思是受限的。Idea两个句子之间的匹配程度需要从语境化的局部视角进行句子表征。可以从一个句子的多个角度进行匹配。也就是说,在匹配过程中,可以使用多个句子表示,每个句子表示关注不同的局部信息。本文提出了一种新的深层神经网络结构,用于多位置句子表示的语义匹配,即MV-LSTM。首先,每个位置句表征被定义为一个位置上.原创 2020-09-11 12:21:59 · 256 阅读 · 0 评论 -
DRMM (2017CIKM)
Idea一个以交互为中心的模型,它在“查询term”层使用了一个联合的deep架构来进行相关匹配。具体地说,首先基于术语嵌入在查询和文档中的每对术语之间构建本地交互。对于每个查询term,将可变长度的局部交互映射为固定长度的匹配直方图。基于这个固定长度的匹配直方图,使用前馈匹配网络来学习分层匹配模式并生成匹配分数。最后,通过一个计算聚合权重的term gate网络将每个查询项的得分聚合起来,生成总体匹配得分。介绍adhoc检索中的核心问题,即给定特定查询的文档的相关性计算,可以形式化为文本匹配问题。.原创 2020-09-10 20:05:23 · 549 阅读 · 0 评论 -
SetRank(2020SIGIR)
SetRank的源代码和实验可以在https://github.com/pl8787/SetRank。介绍Learning to Rank的任务可以描述为两个步骤:首先,在训练步骤中,构建一个排名模型,将每个查询文档对投影到一个排名分数,并从诸如用户点击和相关注释之类的标记数据中学习。第二步是测试步骤,将学习到的排名模型应用于为新查询检索到的一组文档,并最终向用户返回经过排序的文档列表。在实践中,搜索引擎用户通常在生成单击操作之前比较结果页上的多个文档。此外,对查询和文档相关性注释的研究..原创 2020-09-09 16:47:25 · 1406 阅读 · 0 评论 -
multi-task learning for document ranking and query suggestion(2018ICLR)
介绍通常,用户查询日志被划分为搜索session,即同一用户在短时间间隔内发出的查询和单击序列。搜索session提供了关于用户意图的有用上下文信息,并有助于缩小歧义,同时对当前查询的文档进行排序,并预测用户将提交的下一个查询,即上下文感知。由于用户的点击行为和查询重新格式化都是由底层搜索意图驱动的,因此联合建模这两个任务可以使彼此受益。本文提出一个称为多任务神经session框架(M-NSRF)来预测用户在搜索会话中的结果点击和未来的查询。M-NSRF的一般工作流程如图1所示。给定来自同一搜索se.原创 2020-09-08 18:15:14 · 417 阅读 · 0 评论 -
SLTB(2012SIGIR-baseline)
亮点:结合长短期用户行为构建用户profile贡献:提出了一个新的统一建模框架,该框架提供了个性化的不同参数的综合视图,并控制了关键方面,如行为生成的特征和使用的衰减因子。确认了这样的直觉:长期行为在会话开始时是有用的,而短期模型会随着会话的进行而产生收益。提供关于搜索个性化的新发现,例如会话中第一个查询的特殊属性,以及学习为每个查询组合短期和长期功能的模型的强大性能,而不是简单地聚合所有特征;表明单个查询从短期和长期个性化中得到不同的好处。个性化框架图1说明了构成框架的三个时态视图之.原创 2020-09-07 17:54:50 · 488 阅读 · 0 评论 -
PSGAN(2019SIGIR)
介绍传统的搜索引擎采用一刀切的策略。它们对任何用户的查询都使用相同的排名函数。众所周知,该策略无法满足同一查询背后用户的不同搜索信息需求(比如apple fruit 和 apple phone)。现有的个性化搜索方法大多从用户的搜索历史中提取点击和主题特征,并根据查询结果和诱导的用户兴趣计算文档相关性。但是,这些功能通常是手动设计的。很难期望这些特性完全涵盖了重要因素。深度学习模型不需要人工设计和提取,就可以从训练数据中自动学习文档的表示、用户配置文件和其他相关特征。它们还可以涵盖更广泛的功能。然而,.原创 2020-09-05 17:52:40 · 461 阅读 · 0 评论 -
KG for IR(2017WWW)
Semantic Scholar (S2)于2015年底推出,旨在帮助研究人员在不挖掘无关信息的情况下找到论文。这个项目很成功。它目前的产品排名系统是基于ElasticSearch中的基于词的模型,该模型在一个learning to rank 体系中将查询词与论文的各个部分相匹配,并结合文献特征,如引文数和发表时间。分析S2的查询日志发现,在线流量中很大一部分是关于计算机科学概念或研究主题的即席查询。这种查询背后的信息需求有时很难满足基于术语频率的排名模型。例如,输入“dynamic programmin.原创 2020-09-04 16:46:58 · 457 阅读 · 0 评论 -
Encoding History with Context-aware Representation Learning for Personalized Search(2020SIGIR)
预备知识:Transformer:1.https://blog.csdn.net/longxinchen_ml/article/details/86533005 2.苏剑林. (2018, Jan 06). 《《Attention is All You Need》浅读(简介+代码) 》[Blog post]. Retrieved from https://kexue.fm/archives/4765 3. ...原创 2020-09-02 20:48:07 · 414 阅读 · 0 评论 -
知识图谱遇上文本摘要:保留抽象式文本摘要的事实性知识(2020 microsoft)
Boosting Factual Correctness of Abstractive Summarization with Knowledge Graphhttps://arxiv.org/abs/2003.08612什么是文本摘要?文本摘要是NLP中非常重要的一项任务,即给定一篇长文章,模型生成一小段文本作为对该文章的摘要。文本摘要分为抽取式与抽象式。抽取式是直接从文章中选取片段作为摘要。好处是它能保留文章的原始信息,但缺点是它只能从原文章中选取,相对不那么灵活。抽象式是从头开始生成一.原创 2020-09-01 20:40:00 · 1256 阅读 · 1 评论 -
GAN学习笔记(11)SeqGAN
SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient问题提出将GAN应用于序列生成有两个问题。首先,GAN用于生成真实值、连续的数据,但难以直接生成离散token序列,例如文本。这是因为在GANs中,发生器首先从随机采样开始,然后由模型参数进行确定性变换。利用D输出的.的Loss梯度来指导生成模型G(参数)对生成值稍作改变,使其更真实。如果生成的数据基于离散token,那么来自判别网络的“微小变化”指导...原创 2020-08-29 11:11:36 · 1370 阅读 · 0 评论 -
推荐系统(BPR)
BPR是基于用户的隐式反馈,为用户提供物品的推荐,并且直接对排序进行优化。形式定义UUU:user集合;III :item集合;SSS:用户的隐式反馈 如下图所示,只要用户对某个物品产生过行为,就标记为+,未观察到的数据(即用户没有产生行为的数据)标记为?.iii>u_uujjj表示用户uuu在物品iii和物品jjj之间更偏向于物品iiiIII+^++u_uu={iii∈∈∈III:::(uuu,iii)∈∈∈SSS}代表了用户uuu产生过行为的物品集合UUU+^++i_ii=.转载 2020-08-28 20:42:55 · 1243 阅读 · 0 评论 -
GAN学习笔记(10)IRGAN
IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models 大一统信息检索模型的博弈竞争 2017年SIGIR满分论文 将GAN应用至信息检索领域 Te experiment code is provided at: htps://github.com/geek-ai/irganIR背景经典学派认为,在文档和信息需求(包括查询)之间存在一个潜在的随机生成(ge..原创 2020-08-27 23:15:40 · 1075 阅读 · 0 评论 -
GAN学习笔记(9)(CFGAN)
CFGAN: A Generic Collaborative Filtering Framework based on Generative Adversarial Networks背景使用GAN来进行推荐,之前已经有过IRGAN和GraphGAN的方法。见笔记(10和8)。GraphGAN,论文本身针对于链接预测问题,可以扩展到推荐系统中,其最主要的贡献在于将图表示成宽度优先的树,并提出了graph softmax的方法但是这两种方法都存在discrete item index genera..原创 2020-08-27 17:12:40 · 1245 阅读 · 0 评论 -
GAN学习笔记(8)(GraphGAN)
GraphGAN: Graph Representation Learning with Generative Adversarial Nets3. Motivation网络表示学习方法可以分成两个类别。一种是Generative model(生成式模型),假定对于每一个顶点,在图中存在一个潜在的、真实的连续性分布 Pt_ttr_rru_uue_ee(v|vc_cc), 图中的每条边都可以看作是从Pt_ttr_rru_uue_ee里采样的一些样本。生成式方法都试图将边的似然...原创 2020-08-27 14:41:03 · 2250 阅读 · 0 评论 -
GAN学习笔记(7)(ICLR 2016 DCGAN)
论文名称:UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONALGENERATIVE ADVERSARIAL NETWORKS 基于深度卷积生成对抗网络的无监督表征学习贡献把 CNN 与 GAN 结合1. DCGANDCGAN 的原理和 GAN 是一样的,这里就不在赘述。它只是把上述的 G 和 D 换成了两个卷积神经网络(CNN)。但不是直接换就可以了,DCGAN 对卷积神经网...原创 2020-08-26 21:25:53 · 365 阅读 · 0 评论 -
English notes forEnglish notes for GAN
Comparatively 相比之下,相对地they are a strong candidate for unsupervised learning. 他们是无监督学习的有力候选人。Additionally 此外Learning reusable feature representations from large unlabeled datasets has been an area of active research.从大型未标记数据集中学习可重用特征表示一直是一个活跃的..原创 2020-08-26 21:07:28 · 90 阅读 · 0 评论