问题1:如何计算文本相似度?
直接使用词向量做平均得到句向量,通过余弦相似度来计算
直接使用词向量做平均得到句向量,通过向量距离来计算
使用sentenceBert输出两个句子各自的句向量,通过余弦相似度来计算
使用sentenceBert输出两个句子各自的句向量,拼接起来,通过全连接层,再做二分类
使用simCSE输出两个句子各自的句向量,通过余弦相似度来计算。
福利:七月在线干货组最新整理的《名企AI面经100篇》&《机器学习十大算法系列》PDF,文末免费领!
问题2:Bert模型的输出一般接上一个全连接层做下游的任务,是否可以用xgboost代替全连接层?为什么?
不能使用xgboost代替
不能使用任何非参数模型代替全连接层,比如以树模型为基础的模型,SVM。
因为Bert中的参数的调整是需要通过梯度反向传播来进行梯度下降来更新的,如果梯度都没有,那么如何更新参数。如果需要梯度的话,就必须上可对参数求导的模型,如果参数可求导,那么一定是有参数模型,比如逻辑回归,全链接层。
问题3:描述下Roberta模型和bert有什么不同?
Roberta可以直接看成收敛后的bert模型
在更加大量的数据集上做了Bert预训练任务
取消了NSP任务,只关注MLM任务
使用了动态的MASK方