搜索引擎
No_Game_No_Life_
这个作者很懒,什么都没留下…
展开
-
这就是搜索引擎——检索模型与搜索结果排序
布尔模型布尔模型是检索模型中最简单的一种,理论基础就是集合论。用户查询一般使用“与或非”这些逻辑连接词,比如用户希望找到与苹果公司相关的信息,可以用如下的逻辑表达式查询:苹果AND(乔布斯OR iPad),代表的涵义很容易理解。对于上面的文档,满足搜索的要求是D3和D5。布尔模型很简单,但是其结果是二元的,要么相关要么不相关。所以无法根据搜索结果进行排序,而且对普通用户来说,使用Or A...原创 2019-01-24 11:10:06 · 2035 阅读 · 0 评论 -
这就是搜索引擎——链接分析
两个概念模型及算法之间的关系随机游走模型随机游走模型是针对浏览器网页的用户行为建立的抽象概念模型,之所以要建立这个抽象概念模型,是因为包括PageRank算法在内的很多链接分析算法都是建立在随机游走模型基础上的。随机游走模型假设网页在包含的url之间的跳转机会均等。假设有3个网页ABC,A网页包含B的URL,B包含C的URL,C包含A和B的URL,那么其矩阵为:子集传播模型...原创 2019-01-24 16:37:26 · 826 阅读 · 0 评论 -
爬虫从入门到放弃——正则表达式
很可能你使用过Windows/Dos下用于文件查找的通配符(wildcard),也就是和?。如果你想查找某个目录下的所有的Word文档的话,你会搜索.doc。在这里,*会被解释成任意的字符串。和通配符类似,正则表达式也是用来进行文本匹配的工具,只不过比起通配符,它能更精确地描述你的需求——当然,代价就是更复杂。了解正则表达式假设你在一篇英文小说里查找hi,你可以使用正则表达式hi。这几乎是...原创 2019-01-25 10:57:29 · 697 阅读 · 0 评论 -
这就是搜索引擎——搜索引擎简述
搜索引擎发展简史史前时代:分类目录这个时代也可以被称为“导航时代”。譬如国内的hao123就是通过人工的收集整理,把属于各个类别的高质量的网站分门别类,然后用户通过分级目录来查找网站。一般被收录的网站质量都较高,但是这种方式可扩展性不强,绝大部分网页不能被收录。第一代:文本检索文本检索采用经典的信息检索模型,比如布尔模型、向量空间模型或者概率模型,来计算用户查询关键词和网页文...原创 2019-01-21 15:54:44 · 871 阅读 · 0 评论 -
这就是搜索引擎——网络爬虫简述
通用爬虫框架如下图是一个通用的爬虫框架流程。首先从互联网页面中选择一部分网页,以这些网页的链接地址作为种子URL,将这些种子URL 放入待抓取的URL队列中,爬虫从待抓取的URL队列中一次读入,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。然后将IP和对应的网页相对路径名称交给网页下载器,网页下载器负责页面内容的下载。对于下载到本地的网页,一方面将其存储到页面库中,等待...原创 2019-01-21 17:49:55 · 976 阅读 · 0 评论 -
这就是搜索引擎——搜索引擎索引(1)
索引基础单词-文档矩阵也就是每个词在哪个文档中出现过。倒排索引首先介绍几个术语:文档(Document):比如Word、PDF、html、XML等不同格式的文件都可以称为文档。文档编号(Document ID):一对一。单词编号(Word ID):一对一。倒排索引:实现单词-文档矩阵的一种具体存储形式。倒排索引主要由两个部分组成:单词词典和倒排文件。单词词典(Le...原创 2019-01-22 11:37:15 · 884 阅读 · 0 评论 -
这就是搜索引擎——搜索引擎索引(2)
查询处理为搜索引擎构建索引,其目的是能更快速的提取与用户查询相关的文档信息,假设搜索引擎已经建立好了索引,如何根据倒排索引来相应用户的查询呢?目前有两种查询机制:一次一文档一次一单词跳跃指针(这种是辅助求并集的方式)假设用户输入查询“搜索引擎 技术”,分词后,“搜索引擎”这个单词对应的倒排列表中的文档ID依次为{1,3,4},“技术”这个单词对应的倒排列表中,文档ID列表为{1,2...原创 2019-01-23 14:03:56 · 2108 阅读 · 0 评论 -
这就是搜索引擎——索引压缩
对于海量数据,建立倒排索引往往需要较大的磁盘空间,尤其是一些常见的单词,这些单词对应的倒排列表可能有几百兆。如果搜索引擎在相应用户查询的时候,用户查询包含了常见的单词,就需要将大量的倒排列表信息从磁盘读入内存。由于磁盘读写速度往往是个瓶颈,所以整个过程的速度会收到影响。索引压缩则可以利用数据压缩算法,有效的将数据量减少,这样一方面可以减少索引占用的磁盘空间资源,另一方面可以减少磁盘读写的数据量。...原创 2019-01-23 15:07:39 · 929 阅读 · 0 评论