分布式计算
文章平均质量分 82
新拖拉机
对技术高峰,身虽不能至,而心向往之。
GitHub空间:https://github.com/pumadong
展开
-
Hadoop I/O
Hadoop自带一套原子操作用于数据I/O。其中一些技术,如数据完整性保持和压缩,对于处理多达数个TB的数据时,特别值得关注。本篇的内容主要有以下几点:(1)通过检验和保证数据完整性(2)Hadoop压缩(3)Hadoop序列化-Writable(4)Hadoop顺序文件-即文件序列化。原创 2014-04-20 17:22:33 · 2150 阅读 · 0 评论 -
ZooKeeper源码之旅--概述
每个Java程序员都应该看懂、吃透几套框架的源码,它将帮我们在技术功底上建立无与伦比的信心!看源码有一些通用的小技巧,简单总结了一下,然后在粗略看过ZooKeeper源码之后,先画几个整体上的流程图,然后再进一步细看。ZooKeeper需要一些基本的Java知识,需要了解一些基本概念,其核心主要是:选举算法,数据服务,数据持久化,数据同步。原创 2016-08-13 15:03:20 · 847 阅读 · 0 评论 -
ZooKeeper源码之旅--搭建Eclipse工程
ZooKeeper是雅虎的。用Ant进行软件构建。千里之行,始于足下。想看源码的第一步,是下载源码并导入某个IDE工具。本篇博客,介绍了从官方网站下载ZooKeeper,并导入源码到Eclipse的过程。原创 2016-07-23 00:25:22 · 3420 阅读 · 0 评论 -
Hadoop认知--在不同的阶段
记录在不同的学习使用阶段,个人对Hadoop的认识情况,当前入门阶段,介绍入门阶段对Hadoop的看法。原创 2014-05-22 15:50:46 · 1103 阅读 · 0 评论 -
MapReduce编程实战之“初识”
MapReduce是Hadoop(这种大数据处理生态环境)的编程模型,既然称为模型,则意味着它有固定的形式,MapReduce编程模型,就是Hadoop生态环境进行数据分析处理的固定的编程形式。本文通过实例,演示Java和Ruby写的MapReduce代码。原创 2014-04-16 00:12:37 · 3508 阅读 · 1 评论 -
Hadoop2.2.0集群在RHEL6.2下的安装实战
本文介绍了一个Hadoop2.2.0集群的搭建过程,在2台4G内存的酷睿双核PC机上,使用VMWare WorkStation虚拟了4个RHEL6.2(1G内存、单核CPU、10G硬盘),总计用10个小时的时间,完成虚拟机制作和Hadoop建立过程,总体比较顺利。集群搭建过程中,最容易遇到的问题就是DataNode不启动(或者在NameNode中看不到),多看日志,总能解决:)原创 2014-04-13 14:14:18 · 2190 阅读 · 0 评论 -
Hadoop集群管理--保证集群平稳地运行
本篇介绍为了保证Hadoop集群平稳地运行,需要深入掌握的知识,以及一些管理监控的手段,日常维护的工作。原创 2014-05-16 23:02:51 · 1577 阅读 · 0 评论 -
HDFS--Hadoop分布式文件系统
HDFS,全称是Hadoop Distributed Filesystem,是一个分布式的文件系统,本篇通过Java API演示对HDFS文件系统的常用操作,并简单介绍HDFS的原理、设计特性、注意问题及常用操作。原创 2014-04-18 19:36:35 · 2072 阅读 · 0 评论 -
MapReduce编程实战之“调试”和"调优"
在上一篇的“初识”环节,我们已经在本地和Hadoop集群中,成功的运行了几个MapReduce程序,对MapReduce编程,已经有了最初的理解。在本篇文章中,我们对MapReduce编程进行进一步的了解,包括:配置API、辅助类、调试手段、调优手段。原创 2014-04-19 23:27:21 · 3406 阅读 · 0 评论 -
MapReduce编程实战之“I/O”
本篇通过对MapReduce模型的分析,加深对MapReduce模型的了解;并介绍MapReduc编程模型的常用输入格式和输出格式,在这些常用格式之外,我们可以扩展自己的输入格式,比如:如果我们需要把Mongo数据作为输入,可以通过扩展InputFormat、InputSplit的方式实现。原创 2014-04-24 11:42:27 · 1533 阅读 · 0 评论 -
MapReduce编程实战之“高级特性”
本篇介绍MapReduce的一些高级特性,如计数器、数据集的排序和连接。计数器是一种收集作业统计信息的有效手段,排序是MapReduce的核心技术,MapReduce也能够执行大型数据集间的“”连接(join)操作。原创 2014-05-14 22:20:53 · 1835 阅读 · 0 评论 -
MapReduce编程实战之“工作原理”
本篇简单剖析MapReduce1.0和MapReduce2.0(yarn)的工作机制。Job/Task的优化执行,及其错误处理机制。原创 2014-04-23 22:46:57 · 1091 阅读 · 0 评论 -
ZooKeeper--一个具有高可用性的高性能协调服务
ZooKeeper是一个具有高可用性的高性能协调服务。ZooKeeper主要用来解决分布式系统中的“部分失败”问题。本文提供两个代码例子,分别是:Java开发的znode操作代码和配置服务代码。原创 2014-04-12 12:24:47 · 3689 阅读 · 0 评论