目录
此文仅记录整个对话系统项目的**step1–**制作一个可以运行的baseline
之后再增添相应的功能 和完善项目整体
前言
只是简单的功能使用 具体涉及到的知识点 再开其他博文进行介绍 之后再贴链接于此文文末
加油吧~~~
一、选择数据集
目标:选择内容合适、大小合适、目的相符的语料。大致还应该考虑是否做封闭语料还是open
二、处理语料
1.语料清洗
切割、正则化:
- 要清洗的内容
(1)多余的空格
(2)不正规的符号
(3)多余的字符、英文
- 清洗的方法
(1)正则化
(2)切分
(3)好坏语句判断
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
2.词向量化编辑
统一格式:
(1)原始文本不能直接训练
(2)将句子转换成向量
(3)将向量转换成句子
data = pd.read_csv(
'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())
该处使用的url网络请求的数据。
3.语料对答模式构建
问答对的处理和拆分
4.模型保存
语料模型的保存
三、选择处理方法
- seqtoseq
- lstm
- rnn
- rlu
- gpt