毕设项目分享基于深度学习的中文对话问答机器人

最新推荐文章于 2024-10-18 00:00:00 发布

kooerr

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量1k

点赞数 20

文章标签： python 算法

本文链接：https://blog.csdn.net/kooerr/article/details/135010019

版权

0 简介

今天学长向大家介绍一个深度学习项目

基于深度学习的中文对话问答机器人

1 项目架构

整个项目分为数据清洗和建立模型两个部分。

（1）主要定义了seq2seq这样一个模型。
首先是一个构造函数，在构造函数中定义了这个模型的参数。
以及构成seq2seq的基本单元的LSTM单元是怎么构建的。

（2）接着在把这个LSTM间单元构建好之后，加入模型的损失函数。
我们这边用的损失函数叫sampled_softmax_loss，这个实际上就是我们的采样损失。做softmax的时候，我们是从这个6000多维里边找512个出来做采样。
损失函数做训练的时候需要，测试的时候不需要。训练的时候，y值是one_hot向量

（3）然后再把你定义好的整个的w[512*6000]、b[6000多维]，还有我们的这个cell本身，以及我们的这个损失函数一同代到我们这个seq2seq模型里边。然后呢，这样的话就构成了我们这样一个seq2seq模型。
函数是tf.contrib.legacy_seq2seq.embedding_attention_seq2seq()

（4）最后再将我们传入的实参，也就是三个序列，经过这个桶的筛选。然后放到这个模型去训练啊，那么这个模型就会被训练好。到后面，我们可以把我们这个模型保存在model里面去。模型参数195M。做桶的目的就是节约计算资源。

2 项目的主要过程

前提是一问一答，情景对话，不是多轮对话（比较难，但是热门领域）

整个框架第一步：做语料

先拿到一个文件，命名为.conv（只要不命名那几个特殊的，word等）。输入目录是db，输出目录是bucket_dbs，不存在则新建目录。

测试的时候，先在控制台输入一句话，然后将这句话通过正反向字典Ids化，然后去桶里面找对应的回答的每一个字，然后将输出通过反向字典转化为汉字。

2.1 数据清洗、预处理

读取整个语料库，去掉E、M和空格，还原成原始文本。创建conversion.db，conversion表，两个字段。每取完1000组对话，插入依次数据库，批量提交，通过cursor.commit.

在这里插入图片描述

2.2 分桶

从总的conversion.db中分桶，指定输入目录db, 输出目录bucket_dbs.

检测文字有效性，循环遍历，依次记录问题答案，每积累到1000次，就写入数据库。

        for ask, answer in tqdm(ret, total=total):
            if is_valid(ask) and is_valid(answer):
                for i in range(len(buckets)):
                    encoder_size, decoder_size = buckets[i]
                    if len(ask) <= encoder_size and len(answer) < decoder_size:
                        word_count.update(list(ask))
                        word_count.update(list(answer))
                        wait_insert.append((encoder_size, decoder_size, ask, answer))
                        if len(wait_insert) > 10000000:
                            wait_insert = _insert(wait_insert)
                        break

将字典维度6865未，投影到100维，也就是每个字是由100维的向量组成的。后面的隐藏层的神经元的个数是512，也就是维度。

句子长度超过桶长，就截断或直接丢弃。

四个桶是在read_bucket_dbs()读取的方法中创建的，读桶文件的时候，实例化四个桶对象。

2.3 训练

先读取json字典，加上pad等四个标记。

lstm有两层，attention在解码器的第二层，因为第二层才是lstm的输出，用两层提取到的特征越好。

num_sampled=512, 分批softmax的样本量（

训练和测试差不多，测试只前向传播，不反向更新

3 项目的整体结构

s2s.py：相当于main函数，让代码运行起来
里面有train()、test()、test_bleu()和create_model()四个方法，还有FLAGS成员变量，
相当于静态成员变量 public static final string

decode_conv.py和data_utils.py：是数据处理

s2s_model.py:
里面放的是模型
里面有init()、step()、get_batch_data()和get_batch()四个方法。构造方法传入构造方法的参数，搭建S2SModel框架，然后sampled_loss()和seq2seq_f()两个方法

data_utils.py:
读取数据库中的文件，并且构造正反向字典。把语料分成四个桶，目的是节约计算资源。先转换为db\conversation.db大的桶，再分成四个小的桶。buckets = [ (5, 15), (10, 20), (15, 25), (20, 30)]
比如buckets[1]指的就是(10, 20)，buckets[1][0]指的就是10。