Hadoop
Jack-changtao
关注并行文件系统,数据库技术,linux kernel ,搜索引擎,分布式计算,BI. 《ceph源代码分析》作者
展开
-
分布式经典论文
【陈怀临:这个年轻人很优秀。优秀的不仅仅是能把这些经典论文看完,而是还花心思翻译出来。他的博客是:银河里的星星。其联系方式是phylips@bmy】分布式领域论文译序sql&nosql年代记海量数据的存储计算和查询一.google论文系列1. google系列论文译序2. The anatomy of a large-scale hypertextu转载 2012-04-09 18:36:22 · 4647 阅读 · 0 评论 -
Spark:一个高效的分布式计算系统
Spark:一个高效的分布式计算系统Posted by jzou on 2013 年 9 月 10 日Tweet6概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同转载 2014-01-09 12:01:21 · 2812 阅读 · 0 评论 -
Zookeeper 原理分析2
当QuorumPeer通过Election算法,来确定自己的身份,leader or follower 之后,就调用开始扮演各种的角色,干相应的任务。Leader首先调用lead函数1)等待所有的follower 连接2)同步相关的状态Follower 要和目前的leader同步目前的状态,包括数据的一致性等原创 2013-04-19 19:37:20 · 1097 阅读 · 0 评论 -
spark 并行计算模型
SparkSpark是一个小巧玲珑的项目,由Berkeley大学的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,充分体现了精简之美。Spark要解决的问题是,在当前的分布式计算框架中不能有效处理的两类问题:iterative(迭代计算)和 interactive(交互式)计算。目前最流行的Hadoop 系统实现了DAG(有向无环原创 2012-12-19 23:04:32 · 11400 阅读 · 0 评论 -
互联网基本架构
大型互联网站的数据存储与传统存储环境相比不仅是一个服务器、一个数据库那么简单,而是由网络设备、存储设备、应用服务器、公用访问接口、应用程序 等多个部分组成的复杂系统。分为 业务数据层、计算层、数据仓储、数据备份,通过应用服务器软件提供数据存储服务,并且通过监控工具对存储单元监控。随着系统中用户数据量的线性增长,数据量将会越来越多。在这样一个数据不断膨胀的环境中,数据已经如洪水般汹涌泛滥。数据查原创 2013-02-19 11:29:40 · 1841 阅读 · 0 评论 -
zookeeper
Zookeeper 的介绍 Zookeeper 是开源的分布式协同服务,其由yahoo开发,后为apache的开源项目。其通过一组原语,为大型分布式系统提供可靠的协同服务。 Zookeeper到底做什么用的? 首先看一下zookeeper的典型的应用场景:1) 配置管理多个服务器共享一个配置文件,当配置文件中的一个选项修改时,就需要立即同步到其他的机器上。这个原创 2012-12-27 00:04:08 · 702 阅读 · 0 评论 -
hadooo 源代码分析
HDFSHDFS client 分析客户端的功能今天开始分析HDFS源代码,首先从HDFS的client端分析。对于分布式文件系统,Client端的功能,就是接收用户的请求,通过网络,与 NameNode 和 DataNode交互。首先确定的是,client端是一个hdfs提供的lib库,用户的应用程序需要包含该库,调用该库提供的函数来访问NameNode和DataNodeHD原创 2012-07-21 19:23:57 · 2051 阅读 · 0 评论 -
有了OpenMP,MPI,为什么还要MapReduce?
博客分类: MapReduceMapreduce编程多线程算法GoogleOpenMP和MPI是并行编程的两个手段,对比如下:OpenMP:线程级(并行粒度);共享存储;隐式(数据分配方式);可扩展性差;MPI:进程级;分布式存储;显式;可扩展性好。OpenMP采用共享存储,意味着它只适应于SMP,DSM机器,不适合于集群。MPI虽适合于各种机器,但它的编程模型转载 2012-06-12 15:54:17 · 1156 阅读 · 0 评论 -
MapReduce: 一个巨大的倒退(zz)
2011-05-07 16:13:15| 分类:搜索与分布式 | 标签:mapreduce 一个巨大的倒退 |字号 订阅看多了正面文章,今天看一篇负面批评吧,在MapReduce几乎已经成为大中型NoSQL产品标配的今天,如果有人说MapReduce完全是个垃圾,估计有很多人要受不了了。下面的一篇文章是一些RDBMS系统的大牛人从多个方面对MapRedu转载 2012-04-09 18:36:55 · 1095 阅读 · 0 评论