搜索引擎与分布式
文章平均质量分 74
Joyyiwei
这个作者很懒,什么都没留下…
展开
-
搜索引擎的技术架构
文章转载自: http://blog.csdn.net/hguisu/article/details/79559851. 搜索引擎的分类搜索引擎按其工作方式主要可分为三种:分别是全文搜索引擎(Full Text Search Engine)目录索引类搜索引擎(Search Index/Directory)元搜索引擎(Meta Search Eng转载 2015-01-09 11:01:55 · 763 阅读 · 0 评论 -
搜索引擎-倒排索引
文章转载自: http://blog.csdn.net/hguisu/article/details/79623501.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。转载 2015-01-09 10:58:40 · 770 阅读 · 0 评论 -
搜索引擎-网络爬虫
文章转载自: http://blog.csdn.net/hguisu/article/details/7949844 通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1. 网络爬虫本质就是浏览器http请求。转载 2015-01-11 10:40:03 · 741 阅读 · 0 评论 -
每天进步一点点——五分钟理解一致性哈希算法(consistent hashing)
转载请说明出处:http://blog.csdn.net/cywosp/article/details/23397179 一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致性哈希修正了CARP使用的简 单哈希算法带来的问题,使得分布式哈希(DHT)可以在P2P环境中真正转载 2015-04-20 23:33:22 · 421 阅读 · 0 评论 -
Elasticsearch中fielddata_cache的实现
简书地址背景基于一次fielddata_cache(容量还没到阈值)被逐出后,想具体了解fielddata_cache的实现来判断fielddata数据是否是常驻内存亦或是只是个软、弱引用,本文基于v1.0.0版本。原创 2017-07-26 23:39:48 · 1688 阅读 · 0 评论