云计算
sun33170161
这个作者很懒,什么都没留下…
展开
-
并行处理库corunner项目介绍
试想,如果有一堆页面,存储在不同的机器上,现在有一个搜索任务,需要根据一个查询条件找到相关的页面,这时候你会怎么做呢?有几种做法,第一种是把页面拷贝到本地,在本地进行查找,但是页面比较多,拷贝就需要花费大量的时间。第二种,把查找的程序拷贝到各个机器,然后依次查找。这种做法具体又有很多种方式,如果你在linux上,比较擅长写脚本,你可能会用一个for循环,依次拷贝文件到远程的机器并运行查找的原创 2013-10-10 19:37:20 · 878 阅读 · 0 评论 -
分布式系统介绍-PNUTS
PNUTS是Yahoo!的分布式数据库系统,支持地域上分布的大规模并发操作。它根据主键的范围区间或者其哈希值的范围区间将表拆分为表单元(Tablet),多个表单元存储在一个服务器上。一个表单元控制器根据服务器的负载情况,进行表单元的迁移和拆分。每条记录的数据都没有固定的模式(采用JSON格式的文本)组件区域(Region):一个区域包含全部表的数据和相关组件。表单元控制器(原创 2013-11-01 01:14:26 · 2942 阅读 · 0 评论 -
文档的相似性和分类
如何求文档相似性?将文档生成k-shingle集合,或由k-shingle集合映射成更少量的桶编号;为了能在内存中装载k-shingle集合,将该集合生成长度为n的最小hash签名,即选择n个hash函数,分别将集合进行行变换,取每次变换后所得的最小hash共同构成一个签名矩阵;由于签名矩阵对应的文档数目比较大,再次采用hash来比较文档的相似性。基于LSH的技术,将签名矩阵行条化,分原创 2013-12-31 23:07:12 · 1060 阅读 · 0 评论 -
利用zookeeper管理集群
zookeeper主要用来做分布式协调服务,通过利用Ephemeral 和 Sequential特性可以很容易实现集群的管理。Ephememal 的路径在节点退出后自动失效Sequential 由zookeeper按照顺序分配路径名一主一备第一个节点为主节点,后一个节点监听前一个节点。一主多备主要是实现多备的选举。每个节点分别创建Ephemeral,Se原创 2013-12-16 22:52:27 · 734 阅读 · 0 评论 -
分布式网页抓取
为了提高网络爬虫的性能,一般会采用分布式的抓取方式,本文主要就其中的网页查重问题进行简单的讨论。第一种:主备集中式控制的方式由一个主控节点控制网页的抓取,主控节点负责任务的分派,将各个slave机器上抓取结果网页内的链接进行汇总,查重,再进一步分派新的任务。主控节点上网页的查重可能是比较复杂的任务。第二种:多节点协作的方式将所有的网页地址进行hash,每个节点负责不同的hash范围原创 2014-01-14 11:45:25 · 1210 阅读 · 0 评论