序列向量化

最新推荐文章于 2022-11-26 12:00:57 发布

黄发良的博客

最新推荐文章于 2022-11-26 12:00:57 发布

阅读量1.7k

点赞数

分类专栏：注意机制

本文链接：https://blog.csdn.net/falianghuang/article/details/73467999

版权

注意机制专栏收录该内容

1 篇文章 0 订阅

订阅专栏

DeepIntent模型

文献：Zhai S, Chang K H, Zhang R, et al. DeepIntent: Learning Attentions for Online Advertising with Recurrent Neural Networks[C]// KDD 2016:1295-1304.

思想

从pooling的角度来解释attention机制，last pooling（选择RNN的最终隐输出作为序列表示向量）存在“远距离信息容易遗忘”的问题；mean pooling(将RNN的各个时刻对应输出进行简单平均）存在“无法区分各个term对用户意图的贡献度的差异”的问题；max pooling(对RNN的所有时刻对应的输出向量的分量取最大值）存在与mean pooling类似的问题. 提出如下的attention pooling:

$h = \sum\limits_{t = 1}^T {{a_t}{h_t}}$ , 其中 ${a_t} = \frac{{\exp (s({h_t};\theta ))}}{{\sum\nolimits_{t = 1}^T {\exp (s({h_t};\theta ))} }}$

$s(h_t; \theta)$ 为注意网络，主要用来学习权重系数 $a_t$ , 网络结构如下：
这里写图片描述

以查询log文件构造有监督学习的数据集： $(q,d^+)$ ， $(q,d_i^-)$ , 分别表示查询序列q，与q诱发的点击 $d^+$ , q查询下并没有点击 $(q,d_i^-)$ , 有如下目标函数：

$J(\theta ) = - \sum\limits_{(q,{d^ + })} {\log \frac{{\exp (score(q,{d^ + }))}}{{\exp (score(q,{d^ + })) + \sum\nolimits_{i = 1}^n {\exp (score(q,d_i^ - ))} }}} ~~ s.t.~~score(q,d) = {h_q}{(q)^T}{h_d}(d)$

CSE模型(Conceptual Sentence Embedding)

文献：Wang Y, Huang H, Feng C, et al. CSE: Conceptual Sentence Embeddings based on Attention Model[C]// ACL 2016:505-515.

思想

为了解决一词多义问题，将概念与注意机制相结合来实现文本序列的嵌入表示，使得相同的词在不同概念中有不同的向量表示形式。
启发于CBOW与Skip-gram的思想”在预测中心目标词或局部语境词时，需要对词进行向量化”，提出类似思想“在预测中心目标词或局部语境词时，需要对句子进行概念相关向量化”：

这里写图片描述
模型：（1） CBOW-CSE ；（2）Skip-Gram-CSE

每个句子有其ID，利用基于知识的文本概念化算法获得句子的概念分布 ${\theta _C}$ , $W$ 与 $S$ 分别为单词向量列空间与句子向量列空间， $C$ 是将句子概念分布 ${\theta _C}$ 转化为概念向量 $c$ 的固定线性算子。
在对CBOW-CSE的模型参数 $W，S，U$ 与 $b$ 进行估值时，并没有考虑中心目标词的各语境词之间的相对位置，也就是说，忽略了语境词的顺序，这会降低句子向量化性能。

Skip-Gram-CSE：忽略输入中的语境词，而从输出中的定长语境随机选取语境词进行预测。预测语境窗口内的一个语境词向量实质上就是给定句子向量 $s$ 与其概念向量 $c$ 的多分类问题。该模型的参数为 $S，U$ 与 $b$ 。

Attention-CSE：CBOW-CSE与Skip-Gram-CSE都需要确定语境窗口大小，这是个难题。太大可能会引入无关词，太小可能会排除相关词。这是由于这些模型是采用同等重要的方式来处理语境窗口内的词语。为此，引入注意机制以区别对待语境窗口内的词语。即将CBOW中的 ${c_t} = \frac{1}{{2k}}\sum\limits_{ - k \leqslant c \leqslant k,c \ne 0} {{w_{t + c}}}$ 修改为 ${c_t} = \frac{1}{{2k}}\sum\limits_{ - k \leqslant c \leqslant k,c \ne 0} {{a_{t + c}}({w_{t + c}}) \cdot {w_{t + c}}}$ , 其中 ${{a_{t + c}}({w_{t + c}})}$ 是 $t+c$ 位置上的词语的权重。具体计算方法如下：

${a_i}(w) = \frac{{{e^{{d_{w,i}}}} + {r_i}}}{{\sum\nolimits_{ - k \leqslant c \leqslant k,c \ne 0} {{e^{{d_{w,c}}}} + {r_c}} }}$

其中 $d_{w,i} \in D_{|V| \times 2k}$ 表示词语 $w$ 的 $2k$ 个位置语境词中的第 $i$ 位置语境词的权重， $r_i \in R^{2k}$ 是各个距中心词相对位置的语境词的对应偏差。
这里写图片描述
Attention-CSE（参数包括：W，C，S，D，R）

黄发良的博客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
序列向量化

DeepIntent模型文献：Zhai S, Chang K H, Zhang R, et al. DeepIntent: Learning Attentions for Online Advertising with Recurrent Neural Networks[C]// KDD 2016:1295-1304.思想从pooling的角度来解释attention机制，last pooling（
复制链接

扫一扫