一、概览
二、论文解读
abstract
如何结合topic和预训练模型?
提出了新的架构来做pairwise的语义相似度检测
发现topics极大地帮助解决领域知识的问题
1.introduction
预训练模型建立了新的一个王国
paraphrase的检测提升比较大,semantic similarity detection还是个挑战,例如社区问答项目,需要衡量question-answer对之间的关系,因为高度领域相关,所以还是比较有挑战。
topic models提供了额外领域相关的语义的信息来做语义相似度计算
2. 数据集
3.tBERT
- 3.1 结构
bert cls特征+主题模型特征
主体模型实验:
LDA + GSDMM
结合字和文档级别的主体
每个tokens都放到topic model里面去
就两个句子的每个token都过一下topic model,然后取平均值。
-
3.2 主体模型选择
主题个数:70-90
alpha值:1或者10
LDA:
不适合短文本
GSDMM:
基于word和基于documnet都试了
指标是f1
-
3.3 不同baseline比较
感觉没提升多少啊,semeval数据集提升多一点
收敛的更快
ps:领域知识在机器翻译,命名实体识别提升也比较大。
就这也可以acl吗?看起来好简单啊
english
The task is to predict whether two questions are paraphrases.->任务是预测两个问题是否是转述。
Jensen- Shannon divergence -> 詹森-香农散度