检索类聊天机器人

一 特点

  1. 需要数据库比较大
  2. 回答比较自然

二 检索匹配

  • 基于检索的技术----专业领域的知识
  • 基于模式匹配的技术----问题和答案相对应
  • 基于自然语言理解的技术----阅读和理解
  • 基于统计翻译模型的技术----概率学进行统计

三 关键技术

1 计算相似度

  • 余弦相似度(Consine Similaryity)向量角度的余弦相似度
  • 皮尔森相关系数(Prarson Correlation Cofficient)
  • 信息检索–词频–逆文档频率(TF-IDf)

2 分类

(1)贝叶斯分类
  • KNN-聚类 把很多点聚集在一起,找到最核心的点
  • SVM-效果好,并且不复杂
  • CNN
  • LSTM
    流程
  • 先验概率:主观的一种判断。经历推导的概率
  • 后验概率:通过Bayes定理,用先验概率计算出
(2)扑贝叶斯分类
  • 加上条件独立假设的贝叶斯方法就是扑素贝叶斯分类方法(Naive Bayes)
  • 缺点:失去了词语之间的顺序信息
  • 优点:重复词
  • 多项式模型
  • 伯努利模型----缺少一些词频信息

四 应用

文本情感分析
拼写纠错

食用技巧

  1. 取对数 → 哈希表
  2. 转换权重 → 哈希表 二分类
  3. 选取topk的关键词 → 最贴切topk
  4. 分割样本 → 一定量的词成正比
  5. 位置权重 → 位置x权重
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值