记录自制闲聊机器人baseline

最新推荐文章于 2024-07-25 15:29:26 发布

侠客儿青争ing

最新推荐文章于 2024-07-25 15:29:26 发布

阅读量114

点赞数

分类专栏：对话系统文章标签：自然语言处理深度学习 tensorflow

本文链接：https://blog.csdn.net/qq_33837905/article/details/108442939

版权

对话系统专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

此文仅记录整个对话系统项目的**step1–**制作一个可以运行的baseline
之后再增添相应的功能和完善项目整体

step1--制作一个可以运行的baseline

前言
一、选择数据集
二、处理语料
三、选择处理方法

前言

只是简单的功能使用具体涉及到的知识点再开其他博文进行介绍之后再贴链接于此文文末

加油吧~~~

一、选择数据集

目标：选择内容合适、大小合适、目的相符的语料。大致还应该考虑是否做封闭语料还是open

二、处理语料

1.语料清洗

切割、正则化：

要清洗的内容

（1）多余的空格

（2）不正规的符号

（3）多余的字符、英文

清洗的方法

（1）正则化

（2）切分

（3）好坏语句判断

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.词向量化编辑

统一格式：

（1）原始文本不能直接训练

（2）将句子转换成向量

（3）将向量转换成句子

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。

3.语料对答模式构建

问答对的处理和拆分

4.模型保存

语料模型的保存

三、选择处理方法

seqtoseq
lstm
rnn
rlu
gpt

侠客儿青争ing

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
记录自制闲聊机器人baseline

step:1:制作一个可以运行的baseline选择数据集处理数据集清洗语料–切割、正则化、向量化–统一格式、构建问答预料模式—问句答句拆分保存模型系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录
复制链接

扫一扫