贴一下汇总贴:论文阅读记录
论文链接:《DocBERT: BERT for Document Classification》
一、摘要
据我们所知,我们首次将BERT应用于文档分类。这项任务的一些特点可能会使人认为BERT不是最合适的模型:句法结构对内容类别来说不太重要,文档通常比典型的BERT输入长,文档通常有多个标签。然而,我们表明,使用BERT的简单分类模型能够在四个流行的数据集上达到最先进的水平。为了解决与BERT推理相关的计算开销,我们从BERTlargeto提取知识到小型双向LSTMs,使用30倍少的参数在多个数据集上达到BERTbase奇偶校验。我们论文的主要贡献是改进了基线,为今后的工作奠定了基础。
二、结论
通过微调BERT来改进文档分类的基线。我们还使用BERTmodels学习的知识来提高单层轻量级BiLSTM模型LSTMreg的有效性,使用知识蒸馏。事实上,我们表明,提取的LSTMregmodel在大多数数据集上实现了BERTbaseparity,在参数数量方面导致超过30倍的压缩,并且推理时间至少快40倍。
两个重要工作:
- 通过简单地微调BERT来建立文档分类的最新结果
- 证明BERT可以被提炼成一个更简单的神经模型&#