序列向量化

DeepIntent模型

文献:Zhai S, Chang K H, Zhang R, et al. DeepIntent: Learning Attentions for Online Advertising with Recurrent Neural Networks[C]// KDD 2016:1295-1304.

思想

从pooling的角度来解释attention机制,last pooling(选择RNN的最终隐输出作为序列表示向量)存在“远距离信息容易遗忘”的问题;mean pooling(将RNN的各个时刻对应输出进行简单平均)存在“无法区分各个term对用户意图的贡献度的差异”的问题;max pooling(对RNN的所有时刻对应的输出向量的分量取最大值)存在与mean pooling类似的问题. 提出如下的attention pooling:

  • h=t=1Tatht , 其中 at=exp(s(ht;θ))Tt=1exp(s(ht;θ))

s(ht;θ) 为注意网络,主要用来学习权重系数 at , 网络结构如下:
这里写图片描述

以查询log文件构造有监督学习的数据集: (q,d+) (q,di) , 分别表示查询序列q,与q诱发的点击 d+ , q查询下并没有点击 (q,di) , 有如下目标函数:

  • J(θ)=(q,d+)logexp(score(q,d+))exp(score(q,d+))+ni=1exp(score(q,di))  s.t.  score(q,d)=hq(q)Thd(d)

CSE模型(Conceptual Sentence Embedding)

文献:Wang Y, Huang H, Feng C, et al. CSE: Conceptual Sentence Embeddings based on Attention Model[C]// ACL 2016:505-515.

思想

为了解决一词多义问题,将概念与注意机制相结合来实现文本序列的嵌入表示,使得相同的词在不同概念中有不同的向量表示形式。
启发于CBOW与Skip-gram的思想”在预测中心目标词或局部语境词时,需要对词进行向量化”,提出类似思想“在预测中心目标词或局部语境词时,需要对句子进行概念相关向量化”:

这里写图片描述
模型: (1) CBOW-CSE ; (2)Skip-Gram-CSE

每个句子有其ID,利用基于知识的文本概念化算法获得句子的概念分布 θC , W S分别为单词向量列空间与句子向量列空间, C 是将句子概念分布θC转化为概念向量 c 的固定线性算子。
在对CBOW-CSE的模型参数WSU b 进行估值时,并没有考虑中心目标词的各语境词之间的相对位置,也就是说,忽略了语境词的顺序,这会降低句子向量化性能。

Skip-Gram-CSE:忽略输入中的语境词,而从输出中的定长语境随机选取语境词进行预测。预测语境窗口内的一个语境词向量实质上就是给定句子向量s与其概念向量 c 的多分类问题。该模型的参数为SU b

Attention-CSE:CBOW-CSE与Skip-Gram-CSE都需要确定语境窗口大小,这是个难题。太大可能会引入无关词,太小可能会排除相关词。这是由于这些模型是采用同等重要的方式来处理语境窗口内的词语。为此,引入注意机制以区别对待语境窗口内的词语。即将CBOW中的ct=12kkck,c0wt+c修改为 ct=12kkck,c0at+c(wt+c)wt+c , 其中 at+c(wt+c) t+c 位置上的词语的权重。具体计算方法如下:

  • ai(w)=edw,i+rikck,c0edw,c+rc

其中 dw,iD|V|×2k 表示词语 w 2k个位置语境词中的第 i 位置语境词的权重,riR2k是各个距中心词相对位置的语境词的对应偏差。
这里写图片描述
Attention-CSE(参数包括:W,C,S,D,R)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值