自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 HDFS概念

HDFS上的文件也被分为以块为大小的分块,作为单独的单元存储。HDFS中的块比磁盘的块大,目的是为了减小寻址开销。通过让一个块足够大,从磁盘转移数据的时间能够远远大于定位这个块开始端的时间。因此,传送一个由多个块组成的文件的时间就取决于磁盘传送率。 名称节点 --- 管理者 数据节点 --- 工作者(多个) 名称节点管理文件系统规定命名空间,它维护着这个文件系统树以及这个数内所有的文件和索引

2011-10-26 20:45:37 799

原创 HDFS集群的平衡

文件块在集群中均匀分布的好处---HDFS能达到最佳工作性能,一个负载不均衡的集群可能影响MapReduce的本地化优势,为负载搞的数据节点带来更大的压力。 1. 选用默认的每个节点20个map来运行distcp来进行数据复制,可以避免不均衡的情况。总之让map的数量多于集群中节点的数量。 2. 均衡器程序是hadoop的一个守护进程,用来重新分布块,具体做法是遵循块副本放置策略(把块副本放在

2011-10-25 09:33:37 1797

原创 下雨天的十月末还不冷

十月末了转眼就 十月末了还不冷的杭州      雾很多 看不清远处的东西      渐渐的有种琐事缠身的感觉 没有办法去做想做的事情的时候     是不是真的能为自己织把伞 …… 告诉自己         可以!

2011-10-24 10:42:34 622

转载 Hadoop分布式文件系统架构及设计要点

一、前提和设计目标 1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。 2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据

2011-10-12 21:43:15 705

原创 MapReduce性能优化---调度

目前,很多internet服务都具有上百万的用户。这些服务产生海量的数据,如何针对海量数据进行分析和处理是目前亟待解决的问题。 Google提出了一个令人兴奋的架构。MapReduce把任务分解成小任务,这些小任务可以在普通PC集群上并行执行。这种架构的一种开源实现是yahoo

2011-10-12 19:40:35 1405

原创 linux下从安装JDK到安装ssh到hadoop单机伪分布式部署

环境: ubuntu 10.10  JDK1.6.0.27  hadoop 0.20.2           一. ubuntu 下 JDK 的安装: 1. 下载jdk-6u27-linux-i586.bin 2. 拷贝到/usr/java,设置文件的操作权限 3. $ ./jdk-6u27-linux-i586.bin开始安装 4. 设置环境变量 vi /etc/profile

2011-10-10 20:16:21 1799 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除