博客专栏  >  综合   >  信息检索学习笔记

信息检索学习笔记

信息检索,可谓跨度极大的学科。各种理论,技术,在这里融合,碰撞,擦出有趣的火花。。。

关注
0 已关注
9篇博文
  • 计算几何问题汇总--圆与矩形

    我在上一篇博客中(详见:计算几何问题汇总–点与线的位置关系)谈到了计算几何最基本的问题:解决点与线(线段or直线)的位置关系判断。那么,更进一步,还需要探讨复杂一点的情况:比如面与线,面与面之间的关系...

    2016-10-07 20:28
    777
  • 简单理解KMP算法

    KMP算法是迄今为止最为高效的字符串匹配算法。当然,在KMP算法出现之前,有关字符串的匹配问题当然经过了一个漫长的探索过程。从一开始最简单的朴素字符串匹配算法,到Rabin-Karp算法,再到有限自动...

    2016-08-09 14:53
    474
  • 计算几何问题汇总--点与线的位置关系

    点与点之间, 线与线之间,点与线之间的位置关系是一类非常重要的问题。它不仅是平面几何学的基石,也常常应用于LBS(Location Based Service),社交网络,以及数据库查询等领域。本文中...

    2016-09-20 08:53
    3266
  • Bloom Filter原理与实现

    在做与Web爬虫有关的任务时,经常这样需要做这样的判断:对于新爬到的URL,我们需要判断这个新的URL是否已经在已有的URL集合中存在了。但是当已经存在的URL集合的数据量极其庞大时,这个存在性的判断...

    2016-10-19 22:37
    966
  • LSH(Locality Sensitive Hashing)原理与实现

    LSH(Locality Sensitive Hashing)翻译成中文,叫做“局部敏感哈希”,它是一种针对海量高维数据的快速最近邻查找算法。 在信息检索,数据挖掘以及推荐系统等应用中,我们经常会遇...

    2016-11-14 11:23
    5034
  • Kd-tree原理与实现

    数据应用当中,最近邻查询是非常重要的功能。不论是信息检索,推荐系统,还是数据库查询,最近邻查询(Nearst Neighbor Search)可谓无处不在。它要实现的是帮助我们找到数据中和查询最接近的...

    2017-02-24 17:24
    2380
  • B树与B+树

    B树是为实现高效的磁盘存取而设计的多叉平衡搜索树。这个概念在文件系统,数据库系统中非常重要。当然,有关于B树的产生,发展,结构等等方面的介绍已经非常详细,所以本文只是介绍有关于B树和B+树最核心的知识...

    2017-03-20 15:59
    1694
  • 浅谈PageRank

    1996年,两位还在斯坦福大学攻读计算机理学博士学位的研究生,开始了一项研究:如何对互联网上“成万上亿”的网页进行排序。在当时看来,这只是发生在斯坦福的一个普通课题研究而已,然而包括其研究者在内,都没...

    2017-04-25 18:00
    497
  • 索引压缩

    当待搜索的数据量极为庞大时,数据所对应的索引的数据量也会非常大。就拿最常见的倒排索引来说,特别是当用户查询的关键词是常用词时,这些词所对应的倒排列表可以达到几百兆,而将这样庞大的索引由磁盘读入内存,势...

    2017-08-10 16:59
    210

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部