hadoop集群
Star先生
技术为本,行业为先!
展开
-
深入理解Hadoop集群和网络
云计算和Hadoop中网络是讨论得相对比较少的领域。本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。翻译 2015-08-01 14:45:49 · 1155 阅读 · 0 评论 -
剖析Mapeduce程序
如前所述,MpaReduce程序通过操作键/值对来处理数据,一般形式为 map:(K1,V1)->list<K2,V2>reduce:(K2,list(V2))->list<K3,V3> 上面是这个数据流的一个相当普通的表现,并无特别之处。而在本节,我们将学习更多的细节,涉及一个典型MapReduce程序的每个阶段。下图显示了这个完整过程的高阶试图,我们将逐步遍历这个流程来进一步剖析每一个组成部原创 2015-08-03 11:08:35 · 2037 阅读 · 0 评论 -
MapReduce实现计数
对于非计算机专人士,大多数统计就是计数,而且许多基础的Hadoop作业都包含了计数过程。我们希望从专利引用数据集中得到专利被引用的次数。这同样是计数。原创 2015-08-04 10:06:08 · 2138 阅读 · 0 评论 -
Hadoop环境共享
虚拟机镜像链接1.下载解压后直接用VMVare打开(有点大,7个多G)2.虚拟机登录密码为liu原创 2015-12-14 09:48:05 · 1320 阅读 · 0 评论 -
从源码中分析Hadoop的RPC机制
RPC是Remote Procedure Call(远程过程调用)的简称,这一机制都要面对两个问题 对象调用方式;序列/反序列化机制在此之前,我们有必要了解什么是架构层次的协议。通俗一点说,就是我把某些接口和接口中的方法称为协议,客户端和服务端只要实现这些接口中的方法就可以进行通信了,从这个角度来说,架构层次协议的说法就可以成立了。原创 2015-12-04 13:50:19 · 2512 阅读 · 0 评论 -
大数据基本概念及Hadoop技术基础
This article is from Teacher Ren courseware , which summarizes the basic concept of Big Data, related technologies and Hadaop technical basis. It is useful for beginners who learn Hadoop ,and I made P原创 2015-11-30 16:07:18 · 1756 阅读 · 0 评论 -
TFS(Taobao File System)安装办法
TFS(Taobao File System)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器 集群上,可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对小文件存储的需求,被广泛地应用 在淘宝各项应用中。它采用了HA架构和平滑扩容,保证了整个文件系统的可用性和扩展性。同时扁原创 2015-12-09 11:46:40 · 6067 阅读 · 2 评论 -
一个完整的MapReduce程序
最近初学Hadoop,仿照参考书上编写了一个wordcount程序,本文主要解决运行过程中出现的一些问题,下边先看一下这个项目。 项目结构 WordMapper类package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWrita原创 2015-12-01 14:18:52 · 7468 阅读 · 0 评论 -
Hadoop的HA机制
NameNode是HDFS集群的单点故障,每一个集群只有一个NameNode,如果这个机器或进程不可用,整个集群就无法使用,直到重启NameNode或者新启动一个NameNode节点 影响HDFS集群不可用主要包括以下两种情况类似机器宕机这样的意外情况将导致集群不可用,只有重启NameNode之后才可使用计划内的软件或硬件升级,将导致集群在短时间范围内不可用。HDFS的高可用性(HA)就可以原创 2015-12-06 08:52:59 · 7276 阅读 · 2 评论