NLP
文章平均质量分 91
黑子小明
这个作者很懒,什么都没留下…
展开
-
ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation
在本文中,我们提出了一种新的蒸馏方法,显著提高了双编码器的跨架构蒸馏效果。1)引入了一种自实时蒸馏方法,该方法可以有效地将后期交互(即ColBERT)提取到vanilla双编码器;2)结合级联蒸馏过程,与交叉编码器教师进一步提高表现。......翻译 2022-07-02 10:55:45 · 913 阅读 · 0 评论 -
Distilled Dual-Encoder Model for Vision-Language Understanding
我们提出了一个跨模式注意力提取框架,用于训练视觉语言理解任务(如视觉推理和视觉问答)的双编码器模型。双编码器模型比融合编码器模型具有更快的推理速度,并且能够在推理过程中对图像和文本进行预计算。...翻译 2022-07-02 10:10:28 · 1534 阅读 · 0 评论 -
VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction
现有技术试图通过对孪生语编码表示进行额外的交互来解决这一问题,而编码过程中的交互仍然是未知的。为了解决这个问题,我们提出了一种虚拟交互机制(VIRT),通过注意力图提取将交互知识从基于交互的模型转移到孪生编码器。......翻译 2022-07-02 09:45:18 · 679 阅读 · 0 评论 -
Multi-task Pre-training Language Model for Semantic Network Completion
知识图谱、链接预测、语义匹配、翻译距离、多任务学习。翻译 2022-06-28 23:41:46 · 879 阅读 · 0 评论 -
Early Convolutions Help Transformers See Better
在ViT中使用卷积干显著提高了优化稳定性,也提高了峰值表现(通过∼ ImageNet-1k上1-2%的顶级精度),同时保持触发器和运行时。在模型复杂性(从1G到36G触发器)和数据集规模(从ImageNet-1k到ImageNet-21k)的广泛范围内都可以观察到改进。这些发现导致我们建议在这种情况下,使用标准的、轻型的卷积茎作为ViT模型的一种结构选择,与原来的ViT模型设计相比,这是一种更稳健的结构选择。...翻译 2022-06-27 23:27:07 · 1427 阅读 · 0 评论 -
PCT: Point Cloud Transformer
PCT是基于Transformer的,它在自然语言处理方面取得了巨大的成功,在图像处理方面显示出巨大的潜力。它在处理点序列时具有固有的置换不变性,因此非常适合点云学习。为了更好地捕获点云中的局部上下文,我们通过支持最远点采样和最近邻搜索来增强输入嵌入。......翻译 2022-06-27 22:11:52 · 3254 阅读 · 2 评论 -
QDROP: RANDOMLY DROPPING QUANTIZATION FOR EXTREMELY LOW-BIT POST-TRAINING QUANTIZATION
在这项研究中,我们率先证实,将激活量化适当地纳入PTQ重建有利于最终的准确性。为了深入理解其内在原因,建立了一个理论框架,表明优化后的低位模型在标定和测试数据上的平坦度至关重要。基于这一结论,提出了一种简单而有效的方法,称为QDROP,.........翻译 2022-06-23 22:47:28 · 1031 阅读 · 0 评论 -
ANNA: Enhanced Language Representation for Question Answering
我们提出了一种扩展的预训练任务,以及一种新的邻居感知机制,该机制更多地关注相邻的tokens,以捕获上下文的丰富性,用于预训练语言建模。翻译 2022-06-22 21:10:13 · 380 阅读 · 0 评论 -
Learning Disentangled Representations of Negation and Uncertainty
语言学理论认为,否定和不确定性的表达在语义上是相互独立的,它们所修饰的内容也是相互独立的。然而,以前关于表征学习的工作并没有明确地模型这种依赖关系。因此,我们尝试使用变分自动编码器1来分离否定、不确定性和内容的表示。......翻译 2022-06-13 23:46:13 · 767 阅读 · 0 评论 -
Transformers for 1D signals in Parkinson’s disease detection from gait
Transformers在一维信号中的应用还不是很广泛,但我们在本文中表明,它们可以有效地从一维信号中提取相关特征。由于Transformers需要大量内存,我们将时间和空间信息解耦,使模型更小。我们的体系结构使用了时间Transformers、降维层来降低数据的维数、空间Transformer、两个完全连接的层和一个输出层来进行最终预测。在Physionet数据集上,我们的模型在区分帕金森病患者和健康患者方面优于当前最先进的算法,准确率为95.2%。...翻译 2022-06-11 12:31:51 · 1490 阅读 · 0 评论 -
Paying More Attention to Self-attention: Improving Pre-trained Language Models via Attention Guiding
预训练模型、多头自我注意力、注意力引导、注意力地图辨别翻译 2022-06-11 00:39:02 · 852 阅读 · 0 评论 -
Survey of Aspect-based Sentiment Analysis Datasets
基于方面的情感分析(ABSA)是一个自然语言处理问题,需要分析用户生成的评论,以确定:a)被审查的目标实体,b)它所属的高级方面,以及c)对目标和方面表达的情感。ABSA的语料库数量众多但分散,这使得研究人员很难快速确定最适合特定ABSA子任务的语料库。本研究旨在建立一个语料库,用于对自主ABSA系统进行训练和评估。此外,我们还概述了有关各种ABSA及其子任务的主要语料库,并强调了研究人员在选择语料库时应考虑的几个语料库特征。...翻译 2022-06-06 23:28:06 · 627 阅读 · 0 评论 -
Spelling Error Correction with Soft-Masked BERT
使用Soft-Masked BERT纠正拼写错误Shaohua Zhang 1 , Haoran Huang 1 , Jicong Liu 2 and Hang Li 1 1 ByteDance AI Lab 2 School of Computer Science and Technology, Fudan University { zhangshaohua.cs,huanghaoran,lihang.lh } @bytedance.com [email protected]摘要拼写错误纠正翻译 2022-05-31 01:00:06 · 759 阅读 · 0 评论 -
RoBERTa: A Robustly Optimized BERT Pretraining Approach(通篇翻译)
RoBERTa:一种稳健优化的BERT预训练方法Yinhan Liu ∗ § Myle Ott ∗§ Naman Goyal ∗§ Jingfei Du ∗§ Mandar Joshi † Danqi Chen § Omer Levy § Mike Lewis § Luke Zettlemoyer †§ Veselin Stoyanov § † Paul G. Allen School of Computer Science & Engineering, University of Washing翻译 2022-05-29 23:48:19 · 782 阅读 · 0 评论 -
Capturing Global Informativeness in Open Domain Keyphrase Extraction
在开放域关键词提取中捕获全局信息Si Sun 1 ? , Zhenghao Liu 2 ? , Chenyan Xiong 3 , Zhiyuan Liu 4 ?? , and Jie Bao 1 ?? 1 Department of Electronic Engineering, Tsinghua University, China 2 Department of Computer Science and Technology, Northeastern University, China 3 Micr翻译 2022-05-21 19:14:18 · 729 阅读 · 0 评论 -
LayoutLM: Pre-training of Text and Layout for Document Image Understanding
LayoutLM:文本和布局的预训练,用于理解文档图像Yiheng Xu ∗ [email protected] Harbin Institute of Technology Minghao Li ∗ [email protected] Beihang University Lei Cui [email protected] Microsoft Research Asia Shaohan Huang [email protected] Microsoft Res翻译 2022-05-20 20:13:57 · 1281 阅读 · 0 评论 -
PromptBERT: Improving BERT Sentence Embeddings with Prompts (通篇翻译)
PromptBERT:使用提示改进BERT句子嵌入Ting Jiang 1 ∗ , Shaohan Huang 3 , Zihan Zhang 4 , Deqing Wang 1 † , Fuzhen Zhuang 2 , Furu Wei 3 , Haizhen Huang 4 , Liangjie Zhang 4 , Qi Zhang 4 1 SKLSDE Lab, School of Computer, Beihang University, Beijing, China 2 Institute o翻译 2022-04-15 22:02:18 · 1131 阅读 · 0 评论 -
ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding
ESimCSE:用于无监督句子嵌入对比学习的增强样本构建方法Xing Wu 1,2,3 , Chaochen Gao 1,2 ∗ , Liangjun Zang 1 , Jizhong Han 1 , Zhongyuan Wang 3 , Songlin Hu 1,2 1 Institute of Information Engineering, Chinese Academy of Sciences, Beijing, China 2 School of Cyber Security, Universi翻译 2022-04-15 20:13:45 · 865 阅读 · 0 评论 -
ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING AND GENERATION(翻译)
ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCEDPRE-TRAINING FOR LANGUAGE UNDERSTANDING ANDGENERATION翻译 2022-04-14 00:20:07 · 2772 阅读 · 0 评论 -
Matching the Blanks: Distributional Similarity for Relation Learning (通篇翻译)
Matching the Blanks: Distributional Similarity for Relation Learning (通篇翻译)翻译 2022-04-11 23:55:22 · 554 阅读 · 0 评论 -
Improved and Efficient Conversational Slot Labeling through Question Answering
通过问答改进和高效的会话槽标签Gabor Tibor Fuisz ∗ , Ivan Vulić, Samuel Gibbons, Inigo Casanueva, Paweł Budzianowski PolyAI Limited, London, UK [email protected], [email protected]摘要基于Transformer的预训练语言模型(PLM)在大多数自然语言理解(NLU)任务中提供了无与伦比的性能,包括一系列问答(QA)任务。我们假设QA方法的改进也可以直接在翻译 2022-04-11 00:03:58 · 664 阅读 · 0 评论 -
Probabilistic Embeddings with Laplacian Graph Priors
具有拉普拉斯图先验的概率嵌入Väinö Yrjänäinen 1 Måns Magnusson 11 Department of Statistics, Uppsala University, Uppsala, Sweden摘要我们使用拉普拉斯先验(PELP)引入概率嵌入。所提出的模型能够将图形侧信息合并到静态单词嵌入中。我们从理论上证明,模型将之前提出的几种嵌入方法统一在一个框架下。PELP概括了图形增强、分组、动态和跨语言静态单词嵌入。PELP还以一种简单的方式实现了这些之前型号的任意组合。此外翻译 2022-04-08 00:03:58 · 606 阅读 · 0 评论 -
Attention Is All You Need
主要的序列转导模型基于复杂的递归或卷积神经网络,包括编码器和解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构,Transformer,它完全基于注意力机制,完全不需要重复和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优,同时更具并行性,需要的训练时间显著减少。我们的模型在WMT 2014英德翻译任务中达到28.4 BLEU,比现有的最佳结果(包括合奏)提高了2 BLEU以上。在WMT 2014年英法翻译任务中,我们的模型在8个GPU上进行了3.5天的训练后翻译 2022-04-07 00:36:29 · 490 阅读 · 0 评论 -
WHENet: Real-time Fine-Grained Estimation for Wide Range Head Pose
WHENet:大范围头部姿势的实时细粒度估计Yijun Zhou [email protected] James Gregson [email protected] IC Lab, Huawei Technologies Canada摘要我们提出了一个端到端的头部姿势估计网络,用于从单个RGB图像预测整个头部雅司病的欧拉角。现有的方法在正面视图中表现良好,但从所有角度来看,很少有目标头部姿势。这在自动驾驶和零售业中都有应用。我们的网络建立在多损失方法的基础上,改变了损失函数和翻译 2022-03-30 23:53:50 · 1729 阅读 · 0 评论