[论文笔记]Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
Abstract
- DSSM是一个判别模型.
- 训练方式:极大化给定query条件下,被点击的文档的条件似然(样本是clickthrough data).
- 为了能够用于大规模搜索应用,使用了word hash技术
Introduction
- 背景:搜索引擎很大程度上,还是用query中的keyword匹配文档的方式.问题:不准确,因为同一个概念在doc和query中可能用不同的词汇.
- 老办法:隐含语义模型
- 问题:使用非监督方式训练.目标函数和搜索任务中的效果好坏不是强相关.
- 现在发展的两条主线
- 使用点击数据
– (待补充) - 通过deep autoencoder来扩展语义模型
– 本质:通过dl来提取query和doc中的层次语义结构
– 实例:卷积LSA
– 问题1:训练的方式还是无监督的-通过重建文档来优化参数.而不是通过对比query下有点无点doc来优化,所以性能不能明显优于关键词匹配.
– 问题2:语义哈希模型不能大规模应用,因为有巨大的矩阵相乘.
– 作者说训练大词典的语义模型,对于真实世界的web搜索任务非常关键.
- 使用点击数据
-论文工作
- 应用步骤: 1.投影query和doc 2.cosine
- 训练方式:
- word hashing: 将query和doc的高维term向量投影到”低维 基于letter n-gram”向量,并且不会有很多信息损失. (这应该是重点)
相关工作
本工作基于两个已有工作