信息检索名词解释

本文介绍了信息检索中的关键概念,包括布尔查询、分类、聚类、信息过滤和信息检索系统等。详细阐述了查准率、查全率、概率模型、查询扩充等性能指标和优化方法,并探讨了词根还原、停用词等处理技术。
摘要由CSDN通过智能技术生成

·布尔查询(Boolean query)

由词项的布尔组合构成的查询. "information and retrieval", "vision or

sight", "Clinton and (not Gore)".

·分类(Classificaiton)

确定给定文件所属相应范畴的过程. 例如, 确定一篇文章该发到哪个News Group,

或是一个email消息该归入哪个子目录, 或是一篇文章的主题.

·聚类(Cluster)

相似文件的表示之分组. 在向量空间模型下, 检索可通过对查询向量和聚类重心之

比较来进行. 在一个聚类之内, 搜索可以更有针对性的方式继续.

·协同过滤(Collaborative Filtering)

通过参考与特定用户具有相似兴趣和需求的其他用户的选择来决定如何为该用户的

文件进行过滤的过程. 又叫"社会过滤(Social Filtering)".

·文件集(Collection)

用户准备从中获取信息的一组文件. 另见"测试文件集(test collection)".

·文件集融合(Collection Fusion)

取自多个文件集的搜索结果的综合问题. 这里面有许多技巧, 因为有些指标在不同

文件集中是不同的, IDF. 而且, 如果一共只要求检索固定个数的文件, 从哪个

文件集里该取多少也是不清楚的.

·基于内容的过滤(Content-Based Filtering)

从文件正文中抽取特征以确定文件的相关程度的过程. 另见"认知过滤(cognitive

filtering)".

·余弦相似度(Cosine Similarity)

"相似度(Similarity)".

·文件(Document)

用户可能要检索的一条信息. 它可以是一个文本文件, 一个WWW page, Newsgroup

里的一篇文章, 一幅图象, 或者是某本书里的一句话.

·标引(Indexing)

把文件集转换成易于查找和检索的合适形式的过程.

·信息抽取(Information Extraction)

试图从格式不受限制的文本中找出语义结构及其他类型的信息的研究方向.

·信息过滤(Information Filtering)

从给定的大量数据中选出用户所需要的数据.

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值