第二课 搭建智能客服系统
0x00 简介
0x01 基于问答对和基于知识图谱的区别
0x02 Review_一只狗和两只猫的故事,心理学和DL/RL(选读)
2.1 巴甫洛夫观察到狗看到食物时会流口水,想要知道狗看到别的事物会不会流口水
- 当不持续刺激时,狗习得的技巧会慢慢消退——深度学习不断学习
- 泛化——过拟合——一朝被蛇咬,十年怕井绳
- 分化:辨别,音叉频率不同,反应不同
2.2 强化学习
0x03 文本处理流程
3.1 分词
工具
3.1.1 方法1:最大匹配(贪心)
-
前向最大匹配
-
后向最大匹配
-
存在问题
- 细分(可能更好)
- 局部最优
- 效率(取决于max_len)
- 存在歧义(不能考虑语义)
3.1.2 考虑语义
- 如何提升效率?
3.2 拼写错误纠正
3.3 文本表示
3.3.1 one-hot
3.3.2 Boolean和Count
3.3.3 相似度计算
3.3.4 TF-IDF
3.4 词向量
3.4.1 引入
- 由于单词的表示:One-hot不能表示语义相似度
- 存在向量稀疏的问题
3.4.2 分布式表示
分布式表示方法是一个大的范畴,词向量表示是分布式表示的一种
0x04 倒排表
输入一个问题,系统到问答库进行查询,并计算相似度,这样的话,复杂度就是O(n)*O(相似度计算),对于一个比较大的问答库来说,这种效率是极低的
所以引入层次过滤思想