阅读笔记-基于用户搜索日志的商品标题压缩

最新推荐文章于 2024-10-17 22:31:40 发布

夏殇0808

最新推荐文章于 2024-10-17 22:31:40 发布

阅读量140

点赞数

分类专栏：学习笔记 algorithm

本文链接：https://blog.csdn.net/u012328476/article/details/102872137

版权

学习笔记同时被 2 个专栏收录

122 篇文章 1 订阅

订阅专栏

algorithm

9 篇文章 1 订阅

订阅专栏

文章目录

数据集
模型

原文链接

数据集

S:淘宝女装所有商品标题，剔除标题长度小于10的，因为大多标题都小于10.
T:达人平台改写后的标题
Q:搜索query的选择：过去一个月内，有10次成交的商品的query

模型

第一个任务：生成输出

输入句子长度为 $M$ ，输出句子长度为 $N$ ，损失函数如下：
$\underset{y \in \mathcal{Y}}{\operatorname{argmax}} s(x, y)=\underset{m_{i} \in[1, M]}{\operatorname{argmax}} s\left(x, x_{\left[m_{1}, \cdots, m_{N}\right]}\right)$
其中， $s (x, y)$ 表示的是一次标题压缩的得分， $s(x,y)=log(y|x;\theta)$ .所以目标函数可以被重新写成
$\log p(y | x ; \theta)=\sum_{n=1}^{N} \log P\left(y_{n} | x, y_{<n} ; \theta\right)$
即给定输入x，输出N个词，的概率最大、$\theta就是模型学习得到的参数。

考虑到RNN及LSTM的不足，引入了attention机制。与原来的注意力机制不同的是，这里我们不在将整个输入句子编码到固定长度的向量，而是在解码的每一次generation时，对部分输入做attention。所以上式被改写为:

$P\left(y_{n} | x, y_{<n} ; \theta\right)=g\left(y_{n-1}, s_{n}, c_{n}, \theta\right)$
其中 $g(·)$ 是一个非线性函数。 $s_{n}$ 是第n个目标输出词的隐状态值，用下式来进行计算
$s_{n}=f\left(s_{n-1}, y_{n-1}, c_{n}, \theta\right)$
其中 $c_{n}$ 是 $c o n t e x t$ 向量，计算方式如下
$c_{n}=\sum_{m=1}^{M} A(\theta)_{n, m} h_{m}$

其中 $A(\theta)$ 就是attention矩阵， $A(\theta)_{n,m}$ 表示的是输入句子的第 $m$ 个词，对输出句子第 $n$ 个词的贡献度，计算方式如下

$A(\theta)_{n, m}=\frac{\exp \left(a\left(s_{n-1}, h_{m}, \theta\right)\right)}{\sum_{m^{\prime}=1}^{M} \exp \left(a\left(s_{n-1}, h_{m^{\prime}}, \theta\right)\right)}$