关键词短语生成的无监督方法04——Encoder-Decoder分析

最新推荐文章于 2021-12-04 17:01:09 发布

楚庄公子

最新推荐文章于 2021-12-04 17:01:09 发布

阅读量166

点赞数

分类专栏：笔记文章标签： 1024程序员节 python 自然语言处理

本文链接：https://blog.csdn.net/NothingLearnt/article/details/120805056

版权

本文介绍了Seq2Seq模型中的Encoder-Decoder模型，包括模型概览、数据集处理和Encoder构建。数据集包含source和target，经过预处理，使用< PAD >、< EOS >、< UNK >和< GO >等特殊字符。Encoder阶段涉及文本Embedding和RNN层。作者在学习过程中遇到挑战，计划继续研究Decoder部分。

摘要由CSDN通过智能技术生成

2021SC@SDUSC

文章目录

继上周的Extract.py分析后，“AutoKeyGen”方法实现了训练模型的前三步，构建短语库、找出缺失关键词短语、对关键词短语评级排名生成silver label，本周开展其最后一步——训练生成Seq2Seq模型的学习、理解与分析。

阅读论文，在Generation Module板块，首先介绍了Classical Encoder-Decoder Model。由于之前未接触过深度学习相关知识，对经典Encoder-Decoder模型未曾有了解，故本周我首先查找资料对模型整体、数据集加载、数据预处理以及Encoder的构造部分进行了学习，整理笔记和代码实操记录如下。

一、Encoder-Decoder模型概览

所谓encoder-decoder模型，又叫做编码-解码模型。这是一种应用于seq2seq问题的模型。

seq2seq问题，简单的说，就是根据一个输入序列x，来生成另一个输出序列y。seq2seq有很多的应用，例如翻译，文档摘取，问答系统等等。在翻译中，输入序列是待翻译的文本，输出序列是翻译后的文本；在问答系统中，输入序列是提出的问题，而输出序列是答案。

为了解决seq2seq问题，有人提出了encoder-decoder模型，也就是编码-解码模型。所谓编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列。固定长度的向量，即下图中语义编码c。
在这里插入图片描述
总结起来说，基础的Seq2Seq主要包括Encoder，Decoder，以及连接两者的固定大小的State Vector。

例如，利用TensorFlow来构建一个基础的Seq2Seq模型，通过向模型输入一个单词（字母序列），例如hello，模型将按照字母顺序排序输出，即输出ehllo。

二、数据集

数据集包括source与target：

source_data: 每一行是一个单词
target_data: 每一行是经过字母排序后的“单词”，它的每一行与source_data中每一行一一对应

例如，source_data的第一行是hello，第二行是what，那么target_data中对应的第一行是ehllo，第二行是ahtw。

数据加载

首先将source和target数据加载进来。

import numpy as np
import time
import tensorflow as tf

with open('data/letters_source.txt','r',encoding='utf-8') as f:
    source_data = f.read()
with open('data/letters_target.txt', 'r'