记录 自制闲聊机器人baseline

目录

此文仅记录整个对话系统项目的**step1–**制作一个可以运行的baseline
之后再增添相应的功能 和完善项目整体



前言

只是简单的功能使用 具体涉及到的知识点 再开其他博文进行介绍 之后再贴链接于此文文末


加油吧~~~

一、选择数据集

目标:选择内容合适、大小合适、目的相符的语料。大致还应该考虑是否做封闭语料还是open

二、处理语料

1.语料清洗

切割、正则化:

  • 要清洗的内容

(1)多余的空格

(2)不正规的符号

(3)多余的字符、英文

  • 清洗的方法

(1)正则化

(2)切分

(3)好坏语句判断

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.词向量化编辑

统一格式:

(1)原始文本不能直接训练

(2)将句子转换成向量

(3)将向量转换成句子

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


3.语料对答模式构建

问答对的处理和拆分

4.模型保存

语料模型的保存

三、选择处理方法

  • seqtoseq
  • lstm
  • rnn
  • rlu
  • gpt
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值