深度学习解决NLP问题：语义相似度计算——DSSM

最新推荐文章于 2024-06-11 18:33:35 发布

TonyZhou110229

最新推荐文章于 2024-06-11 18:33:35 发布

阅读量2.4w

点赞数 15

分类专栏：深度学习 NLP 文章标签：深度学习 nlp 语义

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013074302/article/details/76422551

版权

tongzhou

转载请注明出处： http://blog.csdn.net/u013074302/article/details/76422551

导语

在NLP领域，语义相似度的计算一直是个难题：搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用，希望给读者带来帮助。

0. 提纲

1. 背景

2. DSSM

3. CNN-DSSM

4. LSTM-DSSM

5. 后记

6. 引用

1. 背景

以搜索引擎和搜索广告为例，最重要的也最难解决的问题是语义相似度，这里主要体现在两个方面：召回和排序。

在召回时，传统的文本相似性如 BM25，无法有效发现语义类 query-Doc 结果对，如"从北京到上海的机票"与"携程网"的相似性、"快递软件"与"菜鸟裹裹"的相似性。

在排序时，一些细微的语言变化往往带来巨大的语义变化，如"小宝宝生病怎么办"和"狗宝宝生病怎么办"、"深度学习"和"学习深度"。

DSSM（Deep Structured Semantic Models）为计算语义相似度提供了一种思路。

本文的最后，笔者结合自身业务，对 DSSM 的使用场景做了一些总结，不是所有的业务都适合用 DSSM。

2. DSSM

DSSM [1]（Deep Structured Semantic Models）的原理很简单，通过搜索引擎里 Query 和 Title 的海量的点击曝光日志，用 DNN 把 Query 和 Title 表达为低纬语义向量，并通过 cosine 距离来计算两个语义向量的距离，最终训练出语义相似度模型。该模型既可以用来预测两个句子的语义相似度，又可以获得某句子的低纬语义向量表达。

DSSM 从下往上可以分为三层结构：输入层、表示层、匹配层

2.1 输入层

输入层做的事情是把句子映射到一个向量空间里并输入到 DNN 中，这里英文和中文的处理方式有很大的不同。

（1）英文

英文的输入层处理方式是通过word hashing。举个例子，假设用 letter-trigams 来切分单词（3 个字母为一组，#表示开始和结束符），boy 这个单词会被切为 #-b-o, b-o-y, o-y-#

这样做的好处有两个：首先是压缩空间，50 万个词的 one-hot 向量空间可以通过 letter-trigram 压缩为一个 3 万维的向量空间。其次是增强范化能力，三个字母的表达往往能代表英文中的前缀和后缀，而前缀后缀往往具有通用的语义。

这里之所以用 3 个字母的切分粒度，是综合考虑了向量空间和

最低0.47元/天解锁文章

关注

15
点赞
踩
93

收藏

觉得还不错? 一键收藏
1
评论
深度学习解决NLP问题：语义相似度计算——DSSM

在NLP领域，语义相似度的计算一直是个难题：搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用，希望给读者带来帮助。
复制链接

扫一扫

专栏目录

TonyZhou110229 CSDN认证博客专家 CSDN认证企业博客

码龄11年

2: 原创

53万+: 周排名

152万+: 总排名

2万+: 访问

: 等级

190: 积分

23: 粉丝

19: 获赞

4: 评论

76: 收藏

私信

关注

热门文章

分类专栏

最新评论

CTR预估模型的进化之路
生命的激流: 刚成为推荐算法工程师，看博主这篇写的很好，点赞。 “ LR 静态特征这种模型，信息主要存储在模型中（相比 GBDT 动态特征，信息既存储在模型中又存储在动态特征里）” 这个应该怎么理解？我知道GBDT 的信息是存在模型中，什么叫又存储在动态特征里呢？
CTR预估模型的进化之路
生命的激流: 刚成为推荐算法工程师，看博主这篇写的很好，点赞。 “ LR 静态特征这种模型，信息主要存储在模型中（相比 GBDT 动态特征，信息既存储在模型中又存储在动态特征里）” 这个应该怎么理解？我知道GBDT 的信息是存在模型中，什么叫又存储在动态特征里呢？
深度学习解决NLP问题：语义相似度计算——DSSM
qq_26590743: CDSSM 的原始论文中说：W_c is the feature transformation matrix, as known as the convolution matrix。这里应该就是做了一个 embedding，并没有做传统的卷积操作吧？
CTR预估模型的进化之路
eeshaxia: 简单明了深入浅出图文并茂忍不住留言为作者点赞！

大家在看

最新文章

CTR预估模型的进化之路

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。