hadoop
sisi.li8
热爱技术,拥抱开源
展开
-
Linux下hadoop的安装(CDH版本)
1. 下载下载地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz注意:在安装hadoop之前确保JDK安装成功。2. 配置免密登录Hadoop 组件之间需要基于 SSH 进行通讯。2.1 配置映射配置 ip 地址和主机名映射:vim /etc/hosts192.168.43.174 hadoo...原创 2019-11-20 12:32:53 · 513 阅读 · 0 评论 -
hadoop文件的序列化
1、为什么要序列化? 一般来说,"活的"对象只存在内存里,关机断电就没有了。而且"活的"对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储"活的"对象,可以将"活的"对象发送到远程计算机。2、什么是序列化? 序列化就是指将对象(实例)转化为字节流(字符数组)。反序转载 2019-02-25 15:02:18 · 252 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里...原创 2019-02-26 14:53:49 · 187 阅读 · 0 评论 -
数据仓库中mysql,hive,hdfs,mapreduce之间的关系
交流中发现很多hive转行的开发者都不是特别清楚,hive既然是数据仓库,那为什么还需要mysql数据库,还需要hdfs呢,熟悉三者之间的关系是作为一个合格的hive数据仓库开发者必须掌握的技能一.什么是Hive与其特点官网介绍:The Apache Hive ™ data warehouse software facilitates reading, writing, and managin...原创 2019-09-12 16:37:07 · 650 阅读 · 0 评论 -
hadoop中Combine详解
一 规约(Combine)概念讲解在WordCount案例中,我们TokenizerMapper的输出部分代码如下所示 while (itr.hasMoreTokens()) { String nextToken = itr.nextToken(); word.set(nextToken); context.write(word, one); }...转载 2019-09-16 12:28:56 · 1517 阅读 · 0 评论 -
Hadoop2.2.0中HDFS的高可用性实现原理
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了HDFS的可用性: (1)在不可预测的情况下,如果NN所在的机器崩溃了,整个集群将无法利用,直...转载 2019-09-17 12:19:54 · 187 阅读 · 0 评论 -
MapReduce详解:Shuffle(copy,sort,merge,combiner)过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里...转载 2019-09-18 11:33:23 · 330 阅读 · 0 评论 -
HDFS的编程api
/** * @Description TODO * @Author Zhaogw&Lss * @Date 2019/9/17 14:35 * @Version 1.0 **/import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.IOException;import ...原创 2019-09-18 15:27:28 · 449 阅读 · 0 评论