[论文笔记]Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

最新推荐文章于 2024-07-07 22:04:35 发布

casmaster

最新推荐文章于 2024-07-07 22:04:35 发布

阅读量2.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/casmaster/article/details/76037883

版权

论文探讨了使用深度结构化语义模型（DSSM）改进网页搜索，通过点击数据进行训练，以提升查询与文档的语义匹配。DSSM利用深层神经网络（DNN）计算语义特征，并采用Word Hashing技术降低维度，解决大规模应用问题。作者还提出针对DSSM的优化策略，包括考虑字母n-gram和基于神经网络的语言模型，以增强模型性能。

摘要由CSDN通过智能技术生成

[论文笔记]Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

Abstract

DSSM是一个判别模型.
训练方式:极大化给定query条件下,被点击的文档的条件似然(样本是clickthrough data).
为了能够用于大规模搜索应用,使用了word hash技术

Introduction

背景:搜索引擎很大程度上,还是用query中的keyword匹配文档的方式.问题:不准确,因为同一个概念在doc和query中可能用不同的词汇.
老办法:隐含语义模型
- 问题:使用非监督方式训练.目标函数和搜索任务中的效果好坏不是强相关.
现在发展的两条主线
- 使用点击数据
  – (待补充)
- 通过deep autoencoder来扩展语义模型
  – 本质:通过dl来提取query和doc中的层次语义结构
  – 实例:卷积LSA
  – 问题1:训练的方式还是无监督的-通过重建文档来优化参数.而不是通过对比query下有点无点doc来优化,所以性能不能明显优于关键词匹配.
  – 问题2:语义哈希模型不能大规模应用,因为有巨大的矩阵相乘.
  – 作者说训练大词典的语义模型,对于真实世界的web搜索任务非常关键.

-论文工作
- 应用步骤: 1.投影query和doc 2.cosine
- 训练方式:
- word hashing: 将query和doc的高维term向量投影到”低维基于letter n-gram”向量,并且不会有很多信息损失. (这应该是重点)

相关工作

本工作基于两个已有工作

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。