1.语料收集
(1)聊天记录
(2)电影对话
(3)台词片段
2.语料清洗
要清洗的内容
(1)多余的空格
(2)不正规的符号
(3)多余的字符、英文
清洗的方法
(1)正则化
(2)切分
(3)好坏语句判断
3.句子向量的编码化
(1)原始文本不能直接训练
(2)将句子转换成向量
(3)将向量转换成句子
4.语料问答对的构建
(1)问答对的处理和拆分
(2)语料模型的保存
1.语料收集
(1)聊天记录
(2)电影对话
(3)台词片段
2.语料清洗
要清洗的内容
(1)多余的空格
(2)不正规的符号
(3)多余的字符、英文
清洗的方法
(1)正则化
(2)切分
(3)好坏语句判断
3.句子向量的编码化
(1)原始文本不能直接训练
(2)将句子转换成向量
(3)将向量转换成句子
4.语料问答对的构建
(1)问答对的处理和拆分
(2)语料模型的保存