计算机竞赛题目：基于深度学习的中文对话问答机器人

最新推荐文章于 2024-07-18 15:51:43 发布

Mr.D学长

最新推荐文章于 2024-07-18 15:51:43 发布

阅读量402

点赞数

文章标签： python java

本文链接：https://blog.csdn.net/m0_43533/article/details/133678771

版权

0 简介

🔥 优质竞赛项目系列，今天要分享的是

基于深度学习的中文对话问答机器人

该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！

1 项目架构

整个项目分为数据清洗和建立模型两个部分。

（1）主要定义了seq2seq这样一个模型。
首先是一个构造函数，在构造函数中定义了这个模型的参数。
以及构成seq2seq的基本单元的LSTM单元是怎么构建的。

（2）接着在把这个LSTM间单元构建好之后，加入模型的损失函数。
我们这边用的损失函数叫sampled_softmax_loss，这个实际上就是我们的采样损失。做softmax的时候，我们是从这个6000多维里边找512个出来做采样。
损失函数做训练的时候需要，测试的时候不需要。训练的时候，y值是one_hot向量

（3）然后再把你定义好的整个的w[512*6000]、b[6000多维]，还有我们的这个cell本身，以及我们的这个损失函数一同代到我们这个seq2seq模型里边。然后呢，这样的话就构成了我们这样一个seq2seq模型。
函数是tf.contrib.legacy_seq2seq.embedding_attention_seq2seq()

（4）最后再将我们传入的实参，也就是三个序列，经过这个桶的筛选。然后放到这个模型去训练啊，那么这个模型就会被训练好。到后面，我们可以把我们这个模型保存在model里面去。模型参数195M。做桶的目的就是节约计算资源。

2 项目的主要过程

前提是一问一答，情景对话，不是多轮对话（比较难，但是热门领域）

整个框架第一步：做语料

先拿到一个文件，命名为.conv（只要不命名那几个特殊的，word等）。输入目录是db，输出目录是bucket_dbs，不存在则新建目录。

测试的时候，先在控制台输入一句话，然后将这句话通过正反向字典Ids化，然后去桶里面找对应的回答的每一个字，然后将输出通过反向字典转化为汉字。

2.1 数据清洗、预处理

读取整个语料库，去掉E、M和空格，还原成原始文本。创建conversion.db，conversion表，两个字段。每取完1000组对话，插入依次数据库，批量提交，通过cursor.commit.

在这里插入图片描述

2.2 分桶

从总的conversion.db中分桶，指定输入目录db, 输出目录bucket_dbs.

检测文字有效性，循环遍历，依次记录问题答案，每积累到1000次，就写入数据库。

        for ask, answer in tqdm(ret, total=total):
            if is_valid(ask) and is_valid(answer):
                for i in range(len(buckets)):
                    encoder_size, decoder_size = buckets[i]
                    if len(ask) <= encoder_size and len(answer) < decoder_size:
                        word_count.update(list(ask))
                        word_count.update(list(answer))
                        wait_insert.append((encoder_size, decoder_size, ask, answer))
                        if len(wait_insert) > 10000000:
                            wait_insert = _insert(wait_insert)
                        break