·布尔查询(Boolean query)
由词项的布尔组合构成的查询. 如"information and retrieval", "vision or
sight", "Clinton and (not Gore)".
·分类(Classificaiton)
确定给定文件所属相应范畴的过程. 例如, 确定一篇文章该发到哪个News Group,
或是一个email消息该归入哪个子目录, 或是一篇文章的主题.
·聚类(Cluster)
相似文件的表示之分组. 在向量空间模型下, 检索可通过对查询向量和聚类重心之
比较来进行. 在一个聚类之内, 搜索可以更有针对性的方式继续.
·协同过滤(Collaborative Filtering)
通过参考与特定用户具有相似兴趣和需求的其他用户的选择来决定如何为该用户的
文件进行过滤的过程. 又叫"社会过滤(Social Filtering)".
·文件集(Collection)
用户准备从中获取信息的一组文件. 另见"测试文件集(test collection)".
·文件集融合(Collection Fusion)
取自多个文件集的搜索结果的综合问题. 这里面有许多技巧, 因为有些指标在不同
文件集中是不同的, 如IDF. 而且, 如果一共只要求检索固定个数的文件, 从哪个
文件集里该取多少也是不清楚的.
·基于内容的过滤(Content-Based Filtering)
从文件正文中抽取特征以确定文件的相关程度的过程. 另见"认知过滤(cognitive
filtering)".
·余弦相似度(Cosine Similarity)
见"相似度(Similarity)".
·文件(Document)
用户可能要检索的一条信息. 它可以是一个文本文件, 一个WWW page, Newsgroup
里的一篇文章, 一幅图象, 或者是某本书里的一句话.
·标引(Indexing)
把文件集转换成易于查找和检索的合适形式的过程.
·信息抽取(Information Extraction)
试图从格式不受限制的文本中找出语义结构及其他类型的信息的研究方向.
·信息过滤(Information Filtering)
从给定的大量数据中选出用户所需要的数据.