信息检索名词解释

最新推荐文章于 2025-09-03 18:59:49 发布

原创

最新推荐文章于 2025-09-03 18:59:49 发布 · 8.3k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#测试 #query #服务器 #vector #框架 #语言

本文介绍了信息检索中的关键概念，包括布尔查询、分类、聚类、信息过滤和信息检索系统等。详细阐述了查准率、查全率、概率模型、查询扩充等性能指标和优化方法，并探讨了词根还原、停用词等处理技术。

·布尔查询(Boolean query)

由词项的布尔组合构成的查询. 如"information and retrieval", "vision or

sight", "Clinton and (not Gore)".

·分类(Classificaiton)

确定给定文件所属相应范畴的过程. 例如, 确定一篇文章该发到哪个News Group,

或是一个email消息该归入哪个子目录, 或是一篇文章的主题.

·聚类(Cluster)

相似文件的表示之分组. 在向量空间模型下, 检索可通过对查询向量和聚类重心之

比较来进行. 在一个聚类之内, 搜索可以更有针对性的方式继续.

·协同过滤(Collaborative Filtering)

通过参考与特定用户具有相似兴趣和需求的其他用户的选择来决定如何为该用户的

文件进行过滤的过程. 又叫"社会过滤(Social Filtering)".

·文件集(Collection)

用户准备从中获取信息的一组文件. 另见"测试文件集(test collection)".

·文件集融合(Collection Fusion)

取自多个文件集的搜索结果的综合问题. 这里面有许多技巧, 因为有些指标在不同

文件集中是不同的, 如IDF. 而且, 如果一共只要求检索固定个数的文件, 从哪个

文件集里该取多少也是不清楚的.

·基于内容的过滤(Content-Based Filtering)

从文件正文中抽取特征以确定文件的相关程度的过程. 另见"认知过滤(cognitive

filtering)".

·余弦相似度(Cosine Similarity)

见"相似度(Similarity)".

·文件(Document)

用户可能要检索的一条信息. 它可以是一个文本文件, 一个WWW page, Newsgroup

里的一篇文章, 一幅图象, 或者是某本书里的一句话.

·标引(Indexing)

把文件集转换成易于查找和检索的合适形式的过程.

·信息抽取(Information Extraction)

试图从格式不受限制的文本中找出语义结构及其他类型的信息的研究方向.

·信息过滤(Information Filtering)

从给定的大量数据中选出用户所需要的数据

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。