简述
概括来讲,就是将有点击的Q-D对与无点的Q-D对做成对训练,最大化有点击对的条件概率P(D|Q),特征上把词转成字母序列的ngram,再进行深层映射。
文章链接 https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/cikm2013_DSSM_fullversion.pdf
其他结论
文章对比了几个经典的主题模型和之前Hinton提出的神经网络主题模型,从实验结果来看,有监督好过无监督,深层好过浅层。
网络结构
缺图
特征生成
bag of word (good) -> bag of word (#go goo ood od#)
用这个方法,特征维度从500K降到30K
计算公式
网络各隐含层
缺图
各隐层及输出层用tanh激活函数
缺图
相关性打分用余弦值
缺图
最后用softmax输出预测的相关D