文本搜索

说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。


什么是文本搜索(Text Retrieval)

 存在一个文档集,用户输入查询语句表示查询需求,搜索引擎返回搜索结果。这个过程一般被称为信息检索。但其实信息检索的范围更广泛。信息检索报告:文本检索、图片检索、视频检索等。

TR的特点

 1 数据是非结构化的,并且有歧义;
 2 查询语句是有歧义的,是不完整的;
 3 返回的结果是与查询条件相关的
 4 TR是一个经验主义的问题
 

TR的公式

 计算 R(q) ,得到一个文档与搜索语句的相关性。计算策略使用文档排序,而不是文档选择。 f(d,q)=?
 按照相关度降序排序是基于两个假设:1对一个用户来讲,文档之间是独立的;2 用户线性方式浏览结果的。
 

文档排序函数设计思路

 1 基于相似度Similarity-based models f(d,q)=similarity(d,q)
  Vector space model
 2 概率模型(Probabilistic models) f(d,q)=p(R=1|d,q),whereR{0,1}
  Language model
 3 公理化模型(Axiomatic model)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值