hadoop
文章平均质量分 74
hadoop
MrCharles
隐私
展开
-
Hadoop RPC
Remote Procedure Call 远程方法调用。不需要了解网络细节,某一程序即可使用该协议请求来自网络内另一台及其程序的服务。它是一个 Client/Server 的结构,提供服务的一方称为Server,消费服务的一方称为Client。Hadoop 底层的交互都是通过 rpc 进行的。例 如:datanode 和 namenode、tasktracker 和 jobtracker转载 2016-01-11 09:10:04 · 1872 阅读 · 1 评论 -
Hadoop构架概览
hadoop是一个开源的软件框架,是一个利用商业硬件处理和存储大型数据的软件。从下到上主要有五个主要的组成部分:集群,是一套主机(节点)组成的。节点可以以机架划分。这个是硬件级别的构架.YARN构架 (目前为止的另外一个资源管理器)是一个负责提供计应用执行的时候需要的计算资源的框架(也就是cpu,内存等等). 两个重要的部分如下::一个资源管理器 (每个集群一个)原创 2016-01-07 20:56:47 · 1532 阅读 · 0 评论 -
hadoop集群ambari搭建(2)之制作hadoop本地源
准备好源资源服务器,我使用之前的一台node4,配置都是1GB内存20GB存储集群最好的安装方式一定是通过本地源的,如果是公共源,那么网络将会严重影响我们的安装进度。所以制作本地源是每一个大数据工作者的必会技能。1:制作ambari(1.4.1.25)本地源下载ambari repo[root@node4 ~]# wget http://public-repo-1.hortonwo原创 2015-12-30 10:22:00 · 3756 阅读 · 0 评论 -
hadoop集群ambari搭建(1)之ambari-server安装
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。原创 2015-12-29 21:48:56 · 4785 阅读 · 0 评论 -
hadoop 轻松时刻 hdfs漫画
hadoop漫画:原创 2015-12-28 20:30:32 · 2614 阅读 · 0 评论 -
Hadoop IO基于文件的数据结构详解【列式和行式数据结构的存储策略】
对于某些应用,需要一个特殊的数据结构来存储数据。针对运行基于MapReduce的进程,将每个二进制数据块放入它自己的文件,这样做不易扩展, 所以Hadoop为此开发了一系列高级容器。我们可以想象一下,mapreduce遇到的文件可能是日志文件,文本文件等等,mapreduce 拆分之后变成一条条数据记录,会转化为IntWritable,Text等等可以序列化的对象,然后序列化输出到网络或者硬盘,每一种类型的输出都会放入自己的文件,这样是很不经济的,因为我们期望的是所有的数据可以用同一个容器就最好了,那么ha原创 2015-12-27 19:55:08 · 2487 阅读 · 0 评论 -
Hadoop Serialization -- hadoop序列化详解 (3)【ObjectWritable,集合Writable以及自定义的Writable】
前瞻:本文介绍ObjectWritable,集合Writable以及自定义的Writable TextPair回顾:前面了解到hadoop本身支持java的基本类型的序列化,并且提供相应的包装实现类:这并不是包含了所有的java数据类型,比如我们要序列化的对象是Object类型的,或者是常用的集合类型list,map那该怎么办呢?别怕,我们hadoop也提供相应原创 2015-12-26 18:40:48 · 3171 阅读 · 1 评论 -
Hadoop Serialization -- hadoop序列化详解 (2)【Text,BytesWritable,NullWritable】
回顾:回顾序列化,其实原书的结构很清晰,我截图给出书中的章节结构:序列化最主要的,最底层的是实现writable接口,wiritable规定读和写的游戏规则 (void write(DataOutput out) throws IOException; void readFields(DataInput in) throws IOException;)。为了适应hadoop的mapr原创 2015-12-24 21:20:57 · 3541 阅读 · 1 评论 -
Hadoop Serialization hadoop序列化详解(最新版) (1)【java和hadoop序列化比较和writable接口】
初学java的人肯定对java序列化记忆犹新。最开始很多人并不会一下子理解序列化的意义所在。这样子是因为很多人还是对java最底层的特性不是特别理解,当你经验丰富,对java理解更加深刻之后,你就会发现序列化这种东西的精髓。谈hadoop序列化之前,我们再来回顾一下java的序列化,也是最底层的序列化:在面向对象程序设计中,类是个很重要的概念。所谓“类”,可以将它想像成建筑原创 2015-12-23 21:45:58 · 2556 阅读 · 2 评论 -
Hadoop编码解码【压缩解压缩】机制详解(1)
想想一下,当你需要处理500TB的数据的时候,你最先要做的是存储下来。你是选择源文件存储呢?还是处理压缩再存储?很显然,压缩编码处理是必须的。一段刚刚捕获的60分钟原始视屏可能达到2G,经过压缩处理可以减至500MB左右,一张单反照片可能有5MB,经过压缩之后只有400KB,而质量不会发生明显的损失。hadoop面临的情况也是一样的,大量的数据需要存储在磁盘或者内存中,进行压缩是一种经原创 2015-12-22 21:13:14 · 6530 阅读 · 4 评论 -
Hadoop IO 特性详解(2)【文件校验】
(本文引用了microheart,ggjucheng的一些资料,在此感谢。charles觉得知识无价,开源共享无价)这一次我们接着分析文件IO校验的相关代码,看看最底层是如何实现这种大数据集的文件校验的,不得不说设计这个系统的程序员是世界上最具有智慧的一群人,面对复杂难解的问题总是可以找到很好的解决方法。其实对于文件校验这件事情,hadoop为什么重要上一篇文章讲过几个方面,提到的bit原创 2015-12-22 10:49:18 · 1902 阅读 · 1 评论 -
Hadoop IO 特性详解(1)【数据完整性】
本文结合hadoop : the definitive guide精心而作,包含作者的心血,希望可以帮助大家理解一点hdfs的皮毛,足矣。(charles@xingbod.cn)hadoop本身自带原始的数据IO操作,包括数据处理的完整,压缩等等。但是面对大数据集,还是需要特殊考虑,还包含hadoop tools中的一些组件,例如序列化框架,硬盘数据存储结构等。因为原创 2015-12-21 21:41:17 · 1877 阅读 · 1 评论 -
hadoop再次集群搭建(5)-CDH Install
登录 http://node1.com:7180/.用户名和密码都是admin。启动服务命令是 service cloudera-scm-server start最开始两个页面直接continue,然后会出现下面这个页面: 可以看出我们可以通过Cloudera Manager安装的hadoop组件。 接下来,配置我们要安装的服务器有哪些:原创 2015-12-19 09:07:47 · 1960 阅读 · 1 评论 -
hadoop再次集群搭建(4)-Cloudera Manager Installation
决定选择 Cloudera Manager 进行安装,阅读官方文档,掌握大概脉络。 Cloudera Manager在集群已经实现ssh免秘钥登录,能够访问网络资源和本地资源的情况下,可以自动安装和配置CDH(Cloudera distributed hadoop),以及管理在这个集群上面的服务。 Cloudera Manager安装软件包括原创 2015-12-17 17:46:31 · 1756 阅读 · 1 评论 -
hadoop再次集群搭建(3)-如何选择相应的hadoop版本
之前接触过很多很多hadoop版本,现在重新搭建平台,面临选择哪个版本的问题。当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素:(1)是否为开源软件,即是否免费。(2) 是否有稳定版,这个一般软件官方网站会给出说明。(3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。(4) 是否有强大的社区支持,当出现一个问题时,能原创 2015-12-17 13:03:45 · 1343 阅读 · 1 评论 -
hadoop再次集群搭建(2)-配置免秘钥ssh登录
SSH对于大多程序员都不陌生,目前主流的云服务提供上也是通过SSH来提供链接的安全保障,比如AWS通过使用下载的私钥(private key)实现与EC2实例安全连接、GitHub通过上传的公钥(public key)实现基于git协议(底层使用SSH)远程库管理。SSH(Secure Shell)是一个提供数据通信安全、远程登录、远程指令执行等功能的安全网络协议,由芬兰赫尔辛基大原创 2015-12-17 12:45:19 · 1788 阅读 · 1 评论 -
hadoop-hive查询ncdc天气数据实例
使用hive查询ncdc天气数据在hive中将ncdc天气数据导入,然后执行查询shell,可以让hive自动生成mapredjob,快速去的想要的数据结果。1. 在hive中创建ncdc表,这个表用来存放ncdc的数据create table ncdc (year string,month string,data strin原创 2015-06-16 09:40:24 · 2041 阅读 · 0 评论 -
hadoop mapreduce 计算平均气温的代码,绝对原创
1901 461902 211903 481904 331905 431906 471907 311908 281909 261910 351911 301912 161913 291914 291915 51916 211917 221918 311919原创 2015-05-23 16:25:13 · 2715 阅读 · 0 评论 -
hadoop--谷歌三大论文
学习大数据必读的三个论文:http://pan.baidu.com/s/1c0FA69U在我的网盘,大家可以去下载Google File System中文版 Google Bigtable中文版 Google MapReduce中文版The Google File System 中文版 摘要 我们设计并实现了Google文件系统,一个面向分布式数据密集型应用的、可伸缩的分布式文件系统。虽然运翻译 2015-04-30 10:03:52 · 3343 阅读 · 0 评论 -
hadoop学习笔记411
安装hadoop 1. 免秘钥 使用hadoop用户 ssh-keygen -t rsa cp id_rsa.pub authorized_keys cat id_rsa.pub>>authorized_keys 使用ssh测试,如果失败: 情况1: authorized_keys 权限过高: chmod 600 authorized_keys原创 2015-04-29 10:47:49 · 647 阅读 · 0 评论