第6章 实战之聊天语料处理——6.2 聊天机器人语料处理流程

1.语料收集

(1)聊天记录

(2)电影对话

(3)台词片段

2.语料清洗

要清洗的内容

(1)多余的空格

(2)不正规的符号

(3)多余的字符、英文

清洗的方法

(1)正则化

(2)切分

(3)好坏语句判断

3.句子向量的编码化

(1)原始文本不能直接训练

(2)将句子转换成向量

(3)将向量转换成句子

4.语料问答对的构建

(1)问答对的处理和拆分

(2)语料模型的保存

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值