每天一篇自然语言顶会paper
文章平均质量分 78
研究方向为知识问答, 每天分享一篇自己对于顶会paper的理解,主要方向为命名实体和知识问答
亦万
世间行乐亦如此,古来万事东流水。
展开
-
bert知识蒸馏动态温度设置Annealing Knowledge Distillation (EACL 2021)& Reducing the Teacher-Student Gap
从14年hiton的蒸馏鼻祖paper开始,温度T在输出层蒸馏时已经成了不可或缺的一环,实际使用中发现使用恒定的温度反而导致模型效果的下降,下面介绍两篇最新对温度T的研究Annealing Knowledge Distillation (EACL 2021)论文方法将蒸馏划分为两阶段,第一阶段只蒸馏teacher的logits,第二阶段只蒸馏标注数据的CE LOSS(说是不需要调节hard label和soft label loss的比例) 在第一阶段蒸馏teacher的soft loss原创 2022-02-17 20:00:48 · 1601 阅读 · 3 评论 -
MiniLM V2 深度自注意力蒸馏: Multi-Head Self-Attention Relation Distillation for Compressing Pretrain
建议先阅读MiniLM V1:蒸馏预训练模型架构:深度自注意力蒸馏(NeurIPS 2020) MINILM - 知乎论文个人理解目的与V1一样,本篇paper也是在预训练阶段蒸馏模型(跟任务无关的蒸馏架构),下游任务直接load蒸馏预训练好的student模型,使用任务相关数据finetuning。方法深度自注意力蒸馏: 蒸馏query-query矩阵、key-key矩阵和value-value矩阵(V1采用的是attention矩阵和V-V矩阵) 如果teacher模型过大,可以从原创 2022-02-13 11:33:24 · 2568 阅读 · 0 评论 -
蒸馏预训练模型架构:深度自注意力蒸馏(NeurIPS 2020) MINILM
论文个人理解目的:这篇paper介绍了蒸馏预训练模型的通用架构(预训练蒸馏), 与所有模型蒸馏方法一样,解决的也是student模型和teacher模型的GAP,怎么使用参数量小、推理时间短的student模型尽可能获取teacher模型的能力方法深度自注意力蒸馏: 蒸馏self-attention矩阵和value-value矩阵 助手机制:当teacher和student模型参数差异很大时,先使用teacher蒸馏assistant,再使用assistant蒸馏到student结论原创 2022-01-26 11:05:48 · 1309 阅读 · 0 评论 -
融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)
不同于英文字母,中文的字形和拼音都有其独特的含义, 例如'液'、'河'和'湖'都有相同的偏旁,其含义也有联系;中文汉字'乐'是一个多音字,读'yue'时代表音乐,读'le'时可能就是快乐的意思了。模型结构为了充分利用中文汉字的字形和拼音,论文设计了下面的模型结构图中用红色框出的四种embedding是模型的核心,其中char embedding和原生bert一致,其他几个下面逐个介绍字形embeddingGlyph embedding如下图所示,每个汉字使用三种不同的格式:仿宋、行楷原创 2022-01-18 19:19:39 · 2056 阅读 · 0 评论 -
Code-Switched Named Entity Recognition with Embedding Attention 论文阅读Code-Switched Named Entity Recog
Code-Switched Named Entity Recognition with Embedding Attention 论文阅读论文介绍 论文内容和创新点1. 论文介绍发表在ACL2018的一篇paper, 主要领域为code-Switched NER,看了下论文中的介绍发现是双语种的命名实体识别2. 论文内容和创新点2.1论文内容...原创 2019-12-19 09:28:44 · 342 阅读 · 0 评论 -
A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy 论文总结
本文章主要针对论文A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy 阅读后自我的总结,主要从论文介绍、论文内容、论文总结三个方面进行展开,具体论文的原文可以查看底部的链接论文介绍和动机 本论文是发表在ACL2019的一篇paper,主要针对的领域为命名实体识别,由于某些...原创 2019-12-18 11:00:20 · 512 阅读 · 0 评论 -
A Simple End-to-End Question Answering Model for Product Information 论文笔记
本片论文出自(ACL 2018)从以下几个方面展开:1.论文目的2.论文创新点3.模型框架1.论文目的正如文章介绍的那样,本篇论文解决的是针对某种电商产品,用户可能会对商品的各个属性有疑问,如果匹配用户的自然语言问题和商品的某个属性名称来得到最后的属性值是本篇文章需要解决的问题2.论文创新点(1)一个新而简单的神经网络a.个人理解新体现在作者在做语义...原创 2019-09-25 08:59:41 · 285 阅读 · 0 评论 -
A Simple and Effective IR Approach to Simple Question Answering over Knowledge Graphs 论文解读
Retrieve and Re-rank: A Simple and Effective IR Approach to Simple Question Answering over Knowledge Graphs 论文解读本篇论文是18年的EMNLP的一篇paper主要用在kbqa领域,本文章首先介绍他的详细步骤,最后再介绍该文章的创新点一、详细步骤1. Solr + BM2...原创 2019-09-20 10:25:40 · 666 阅读 · 0 评论 -
Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism 论文解
Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism 论文解读前言:论文主要引入了两个创新点:如何应用CWS(chinese word segment)的信息 在bilstm和crf层中间加了self-attention(第一次引入到NER)...原创 2019-09-19 20:12:33 · 653 阅读 · 0 评论