搜索引擎技术
文章平均质量分 81
foreach_break
专注web、分布式、数据库、数据处理。
展开
-
我们为什么需要Map-Reduce?
在讨论我们是否真的需要Map-Reduce这一分布式计算技术之前,我们先面对一个问题,这可以为我们讨论这个问题提供一个直观的背景。问题我们先从最直接和直观的方式出发,来尝试解决这个问题: 先伪一下这个问题:SELECT COUNT(DISTINCT surname) FROM big_name_file我们用一个指针来关联这个文件.接着考察每一行的数据,解析出里面的姓氏,这里我们可能需要一个姓氏原创 2015-04-26 04:11:16 · 2998 阅读 · 0 评论 -
搜索引擎-架构概述(2)
接上一部分:搜索引擎-架构概述(1)查询处理系统查询处理系统主要包含三个构件:用户交互、排序和评价。 用户交互组件 (User interaction)创建查询、完善查询以及向用户展示结果. 比如,将用户的查询转换为索引项. 并将从搜索引擎得到的有序文档列表组织成搜索结果,展示给用户.1.查询输入 (Query Input)为查询语言(query language)提供接口和解析器。 查询语原创 2015-04-25 21:00:10 · 1511 阅读 · 0 评论 -
搜索引擎-架构概述(1)
架构对软件系统来讲,从一个层面对系统的各个组件进行抽象.描述它们各自的功能、提供的接口以及它们之间的关系.需求架构为应付需求而产生,对搜索引擎来讲,它主要的需求来自两个方面: 效果(effectiveness):搜索的结果质量如何. 效率(effeciency):返回结果的相应时间是不是够低,搜索服务的吞吐量是不是够高.索引处理系统(Indexing Process)从这样的需求出发,我原创 2015-04-25 19:27:01 · 2612 阅读 · 0 评论 -
亲,这就是遗传算法
本文试图通过几幅简明的图来介绍遗传算法。背景当一些问题不存在确定性的最优解法,或者说最优解法的施展时间长的1-B,那我们就得开始考虑点其他路子了。比如说旅行商问题: 旅行商要去很多城市卖货,为了节省时间,它一个城市只去一次,最后还得返回原城市,因为他老婆不允许他离开太久。 它怎么走比较合算?城市的分布可能会像下面这样: 旅行商会想就是把所有城市路线做个排列(一半),然后看看哪条路线最短原创 2015-04-27 18:32:03 · 2463 阅读 · 8 评论 -
【HBase】how many zookeepers should i run?
How many ZooKeepers should I run?You can run a ZooKeeper ensemble that comprises 1 node only but in production it is recommended that you run a ZooKeeper ensemble of 3, 5 or 7 machines; the more member原创 2015-05-17 23:51:36 · 811 阅读 · 0 评论 -
学习笔记:The Log(我所读过的最好的一篇分布式技术文章)
这是一篇学习笔记。 学习的材料来自于我读过的最好的一篇分布式技术文章,没有之一。原创 2015-07-16 12:25:55 · 3517 阅读 · 7 评论 -
你真的很熟分布式处理和事务吗?
本文从码农角度出发,聊聊分布式和事务.原创 2015-07-08 11:23:17 · 1401 阅读 · 2 评论