Elasticserach实战(1) 信息检索概述

我们常用的搜索引擎是 We 搜索 是信息检索的 个分支,学术上的信息检索( Information
trieva l , 简称 IR )的定义为 信息检索是从大规模非结构化数据 (通常是文本)的集合(通
常保存在计 机上〉中找出满足用户信息需求的资料(通常是文档〉 的过程。

1.信息检索常用术语

• 用户需求 (User Need ,简称 UN)
需要获得的信息 严格地说, UN 存在于用户的内心,但是通常用文本来描述,如找与“2014 世界杯”相关的新闻,有时也称为主题( Topic )。
• (Query)
UN提交给检索系统时称为查询( Query ),如“ iPhone7 价格”。对同 UN ,不同人不同时候可以构造出不同的 Query 上述需求也可表示成 苹果7价格” Query 在IR系统中往往还有内部表示。
• 文档 (Document)
文档是信息检索的对象,文挡不仅仅可以是文本,也可以是图像、视频、语音等多媒体文档。
• 文档集(Crops)
由若干文档构成的集合称为文档集合,文档集有时也称为语料库。海量的互联网网页件系统中的文本文件、大量的电子邮件,都是文档集合 具体例子。
• 文档编号(Document ID ) 
文档 ID是给文档集中的每个文档赋予的标识符,通过文档 ID 来区分不同的文档,这样能够方便搜索引擎的内部处理 缩写为 docID。
• 词条化( tokenization) 
词条化是将给定的 符序列拆分成系列子序列的过程,拆分的每个子序列称为一个词词条化的过程中有

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值