
©PaperWeekly 原创 · 作者 | Maple小七
学校 | 北京邮电大学硕士生
研究方向 | 自然语言处理

论文标题:
Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration
论文来源:
EMNLP 2021
论文地址:
https://arxiv.org/abs/2109.06304
论文代码:
https://github.com/sf-wa-326/phrase-bert-topic-model
原生 BERT 主要依靠词汇相似度来确定语义相似度,因此无法很好地表示短语的语义。为了获取更好的短语表示,本文构建了两个面向短语表示的训练数据集,并以对比损失为目标微调 BERT 获得了短语表示模型 PhraseBERT。如下图所示,PhraseBERT 能够产生具有优质语义分布且词汇多样化的短语表示空间,将其应用于下游任务也许能够增强模型对短语语义的理解。


绪言
在语义匹配、机器翻译、问答系统等主流的 NLP 任务上,如何获取优质的短语表示 (phrases representations) 一直都是一个非常重要的话题,虽然 BERT 在这些任务上取得了优异的成绩,但大量 case study 都表明 BERT 其实仅仅是在依靠其强大的拟合能力捕捉浅层的文本统计信息做文本模式识别,离真正的自然语言理解还差得很远。
究其本质,一个模型所能学习到的东西,大多数是由数据和训练目标决定的,比如在无监督语义相似度任务中,原生 BERT 句
本文介绍了PhraseBERT,一种改进的短语表示模型,通过对比损失对BERT进行微调,解决了BERT在短语表示上的局限性。研究者构造了两个数据集,一个是短语复述数据集,另一个包含上下文的短语数据集,以鼓励BERT学习词汇多样性和上下文信息。实验结果显示,PhraseBERT在短语相似度任务上超越了GloVe、SpanBERT和SentenceBERT等基线模型。
最低0.47元/天 解锁文章
543

被折叠的 条评论
为什么被折叠?



