IR
文章平均质量分 92
12Struggle
这个作者很懒,什么都没留下…
展开
-
word2vec
Efficient Estimation of Word Representations in Vector Space【word2vec】作者:Tomas Mikolov;Kai Chen;Greg Corrado;Jeffrey Dean;Abstract我们提出了两个新的模型体系结构来计算单词的连续向量表示从非常大的数据集。 在单词相似度任务中测量这些表示的质量,并将结果与之前基于不同类型神经网络的最佳表现技术进行比较。 我们观察到,在更低的计算成本下,准确性有了很大的提高,即从16亿单词数据集原创 2022-04-09 17:44:49 · 969 阅读 · 0 评论 -
CogLTX Applying BERT to Long Texts
CogLTX: Applying BERT to Long TextsMing Ding, Chang Zhou, Hongxia Yang, and Jie Tang. 2020. CogLTX: Applying BERT to Long Texts. InAdvances in Neural Information Processing Systems, Vol. 33.12792–12804Abstract由于二次增加的内存和时间消耗,BERT无法处理长文本。解决这个问题的最自然的方法,如通原创 2022-04-09 17:40:40 · 1666 阅读 · 0 评论 -
PARADE
PARADE: Passage Representation Aggregation for Document Reranking翻译作者:Canjia Li, Andrew Yates, Sean MacAvaney, Ben He,Yingfei SunAbstract经过预训练的transformer模型,如BERT和T5,已证明在特殊通道和文档排序方面非常有效。由于这些模型固有的序列长度限制,它们需要遍历文档的段落,而不是一次处理整个文档序列。虽然已经提出了几种聚集通道级信号的方法,但这些技术原创 2022-04-03 13:53:37 · 1485 阅读 · 0 评论 -
KeyBLD Selecting Key Blocks with Local Pre-ranking for Long Document Information Retrieval
KeyBLD: Selecting Key Blocks with Local Pre-ranking for Long Document Information Retrieval论文翻译作者:Minghan Li ;Eric Gaussier;发表咋SIGIR2021Abstract基于Transformer的模型,尤其是像BERT这样经过预训练的语言模型,在各种自然语言处理和信息检索任务中都取得了巨大的成功。然而,由于自我注意机制的二次复杂性,这种模型难以处理长文档。最近的工作要么截断长文档,要原创 2022-04-01 22:29:31 · 1138 阅读 · 0 评论