NLP学习(4) 句子排序与过滤

回顾: 基于检索的问答系统

--相似度匹配-->
<--返回相似度最高的--
Question
知识库
< Question, answer1 >
< Question, answer2 >

复杂度 O(n), n是知识库的大小. 所以必须降低复杂度

Question
100项
〈question1, answer1〉
〈question2, answer2〉
...
〈question100, answer100〉
10项
〈question2, answer2〉
〈question17, answer17〉
...
〈question98, answer98〉

倒排表 (Inverted Index)

对句子进行过滤

假设有4个文档

  • doc 1: 我们 今天 运动
  • doc 2: 我们 昨天 运动
  • doc 3: 你们 上 课
  • doc 4: 你们 上 什么 课

词典是[我们, 今天, 运动, 昨天, 上, 课, 什么]

倒排表:

  • 我们: [doc 1, doc 2]
  • 今天: [doc 1]
  • 运动: [doc 1, doc 2]
  • 昨天: [doc 2]
  • 上: [doc 3, doc 4]
  • 课: [doc 3, doc 4]
  • 什么: [doc 4]

如果用户输入了"运动", 则可以直接返回[doc 1, doc 2]作为候选集合

如果用户输入了"我们 课", 则可以返回[doc 1, doc 2] ∪ \cup [doc 3, doc 4]

然后再用排序方法对候选文档进行排序

过滤的方法可以进一步改成, 选择至少包含两个关键词的文档

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值