基于深度学习的短文本相似度学习与行业测评

 文本相似度计算作为NLP的热点研究方向之一,在搜索推荐、智能客服、闲聊等领域得到的广泛的应用。在不同的应用领域,也存在着一定的差异,例如在搜索领域大多是计算query与document的相似度;而在智能客服、聊天领域更注重的是query与query之间的匹配,即短文本之间的相似度计算。

不同的文本长度,相似度的计算方案也存在差异,长文本匹配更多注重文本的关键词或者主题的匹配,业界使用的较多的算法如:TF-IDF、LSA、LDA;而短文本匹配更多的是句子整体的语义一致性,业界较为主流的算法有:word2vec、esim、abcnn、bert等深度模型。

相比于长文本的相似度计算,短文本的相似度计算存在更大的挑战。其一,短文本可以利用的上下文信息有限,语义刻画不够全面;其二,短文本通常情况下,口语化程度更高,存在缺省的可能性更大;第三,短文本更注重文本整体语义的匹配,对文本的语序、句式等更为敏感。

query1

query2

我要打给你

我要打你

你叫什么

你叫我什么

我叫小布

我不叫小布

你有男票吗

你是单身狗吗

你真搞笑

你是个逗比啊

我喜欢看动漫

你不知道我喜欢看动漫吗

不同文本相似度算法的得分分布不一致,无法通过评分来对算法进行评估。因此对于

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值