信息检索
more_ugly_less_bug
这个作者很懒,什么都没留下…
展开
-
skyline查询处理 BNL算法
查找出数据库中所有的SP(skyline point)点最粗鲁暴力的办法,是将所有的点两两比较,显然这是个愚蠢的办法。而BNL(block-nested-loops)算法是在这个愚蠢办法的基础之上改进,算法质量实现了大幅的提升。算法流程: BNL算法,姑且翻译为块嵌套环算法 。该算法首先在内存中开辟有一块窗口,用于存放从文件中读入的疑似是SP的数据。还有临时文件T,当内存中的窗口满时,原本原创 2017-03-30 14:12:53 · 7601 阅读 · 5 评论 -
搜索引擎中cache的使用
静态(static)和动态(dynamic)模型搜索引擎中使用cache对减少查询响应时间和提高系统吞吐量有很大帮助。搜索引擎的cache模型可以分为静态和动态两种。静态模型使用存储在查询日志中的历史数据,将其中访问频率最高的项目加入cache中。这通常用在cache预取中。动态模型则用来将最近最经常被访问的项目加入内存中,为容量有限的cache淘汰不不被经常访问的项目,移出cache。c原创 2017-05-03 14:22:53 · 2058 阅读 · 0 评论 -
信息检索基础知识总结
bag-of-words(BOW)因此BoW模型可认为是一种统计直方图。在文本检索和处理应用中, 可以通过该模型很方便的计算词频。有如下例子:S1:more ugly less bug is ugly.S2:more ugly less bug have bug.根据上述S1、S2中出现的单词, 我们能构建出一个字典,{1:"more",2:"ugly",3:"less",4:原创 2017-04-25 09:46:19 · 9703 阅读 · 0 评论 -
AI高考的信息检索策略
一、stop word stop word的概念是把一些对短语表述不构成直接影响的单词的的搜索结果直接过滤掉,包括a,an,the等冠词,in, at, of等介词, 一些人称代词,时态的助动等。中文中的"的、"了"等也类似。这些词因为使用频率过高,几乎每个网页上都存在,所以搜索引擎将这一类词语忽略掉。二、正向最大匹配法 正向最大匹配法是分词算法的其中一种,它是按照一翻译 2017-06-09 21:50:04 · 1046 阅读 · 1 评论 -
信息检索P@10、MAP、NDCG,及同一指标计算的差别
问题源于我在重现一篇信息检索方面顶会论文实验的时候,始终计算不出与论文中相同的实验结果。论文的实验用到了P@10,MAP,NDCG@10三种指标。我先是用了Galago提供的计算工具,发现除P@10一项指标结果一致外,MAP,NDCG@10两项都有很大的不同。经过观察发现虽然实验结果的数据不同,但是实验结果的趋势是相同的(实验是对几种排名算法进行评比,尽管得到了不同的数据,但是用这些数...原创 2018-01-16 19:32:10 · 43059 阅读 · 3 评论