语义相似度匹配(一)—— DSSM模型

本文介绍了微软提出的DSSM模型,用于计算文本相似度,核心是将query和doc映射到共同的语义空间,通过最大化余弦相似度训练模型。内容包括Word Hashing、全连接层、相似度计算和损失函数的原理,并讨论了模型的优缺点及在中文处理上的应用。
摘要由CSDN通过智能技术生成

一、简介

论文:Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

微软13年提出的计算文本相似度的深度学习模型,核心思想是将query和doc映射到到共同维度的语义空间中,通过最大化query和doc语义向量之间的余弦相似度,从而训练得到隐含语义模型,达到检索的目的。DSSM有很广泛的应用,比如:搜索引擎检索,广告相关性,问答系统,机器翻译等。

网络框架如下:

二、 原理

对输入文本的one-hot向量,通过Word Hashing达到降维的效果,接下来送到传统的神经网络抽取语义特征,计算语义特征之间的相似度。

2.1 Word hashing

需要注意的是原论文中的DSSM处理的数据是英文数据,对于英文数据来说,英文单词的数量是很庞大的,可以看作无限集合,但是

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

微知girl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值