
-------14.6. Hadoop
在风中的意志
这个作者很懒,什么都没留下…
展开
-
Does not contain a valid host:port authority: xx-_xx:9000
Questions安装Hadoop时候,出现如下异常:WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Problem connecting to server: xxx/xxx或者出现[1]Hadoop格式化HDFS报错java.net.UnknownHostException: centos64[2]$ bin/h...原创 2018-03-07 00:30:54 · 2006 阅读 · 0 评论 -
Hadoop 总章
前言Hadoop作为离线计算和分布式存储的基础, 至关重要. 虽然, 至如今, 分布式计算正在向Spark上进行迁移, 但是Hadoop中的分布式存储HDFS及离线计算仍然值得学习.相关章节部署&安装Hadoop 安装(单结点)Hadoop安装(YARN 集群)HDFSHadoop Shell 命令 与 WordCountHadoop HDFS的Java API使用Ha...原创 2019-04-09 00:38:42 · 177 阅读 · 0 评论 -
Hadoop MR 核心原理
前言在之前的系列内, 多数都是介绍Hadoop MR的基本操作, 对于运行原理涉及较少. 本章, 主要补充下这部分的内容. 方便以后的理解.本章主要分为如下几个部分:正文WordCount运行设计WordCount的Map/Reduce主要分为如下几个阶段:Mapper主要负责任务的初级处理, Reducer主要负责数据的合并;Mapper端的操作为(读取数据/按行处理/每行按空...原创 2019-04-07 02:29:58 · 5289 阅读 · 3 评论 -
Hadoop MR 基本运维参数
前言在前面的章节内, 我们主要讲解了Hadoop MR的相关知识. 本章, 主要讲解Hadoop中主要的参数. 通常的程序的性能调优都和这些参数无不关系.本文相关代码, 可在我的Github项目 https://github.com/SeanYanxml/bigdata/ 目录下可以找到. PS: (如果觉得项目不错, 可以给我一个Star.)相关参数本地MR参数mapreduce....原创 2019-04-06 18:44:54 · 772 阅读 · 0 评论 -
Hadoop MR 之(七) 其他基本操作
前言在前面的几章内, 我们讲解了如何进行简单的WordCount操作、如何自定义业务类型、如何Join操作等. 本章, 作为这个系列的补充章节, 稍微将下之前未被介绍的内容: 计数器和程序运行组.本文相关代码, 可在我的Github项目 https://github.com/SeanYanxml/bigdata/ 目录下可以找到. PS: (如果觉得项目不错, 可以给我一个Star.)正文...原创 2019-04-06 18:37:45 · 218 阅读 · 0 评论 -
Hadoop MR 之(六) Join操作 (MapJoin & ReduceJon & 缓存)
前言在前面的几章内, 我们主要讲解了如何进行简单的MR操作, 以及如何开发自定义组件.(Combiner/InputFormat等).在本章中, 我们主要讲解MR中的一个非常经典的问题: 如何实现Join操作?本文相关代码, 可在我的Github项目 https://github.com/SeanYanxml/bigdata/ 目录下可以找到. PS: (如果觉得项目不错, 可以给我一个St...原创 2019-04-06 18:28:50 · 449 阅读 · 1 评论 -
Hadoop MR 之(五) 小文件的处理
前言在前章内我们讲述了如何自定义InputFormat. 本章, 我们接着这个话题讲述如何处理小型文件.处理策略处理策略1 自定义FileInputFormat. 相关的代码见上章(Hadoop MR 之(四) InputFormat 类 / OutputFormat类).处理策略2 使用Hadoop自带的CombineTextInputFormat. 相关的编码操作如下. // ...原创 2019-04-06 13:09:10 · 299 阅读 · 0 评论 -
Hadoop MR 之(四) InputFormat 类 / OutputFormat类
前言在前一章内, 我们讲述了如何自定义Combiner/ Partition /GroupingComaprator类.本章我们讲解下如何自定义输入与输出. 也就是InputFormat类与OutPutFormat类.本文相关代码, 可在我的Github项目 https://github.com/SeanYanxml/bigdata/ 目录下可以找到. PS: (如果觉得项目不错, 可以给我...原创 2019-04-06 13:03:12 · 422 阅读 · 0 评论 -
Hadoop MR 之(三) Combiner类 / Partitioner 类 / GroupingComparator 类
前言在前一章中, 我们介绍了如何使用MR框架完成自己的业务逻辑. 并且,实现了排序功能. 本章, 我们继续讲解Hadoop MR的自定义处理细节.本文相关代码, 可在我的Github项目 https://github.com/SeanYanxml/bigdata/ 目录下可以找到. PS: (如果觉得项目不错, 可以给我一个Star.)基础知识在讲解Hadoop MR的Combainor...原创 2019-04-06 12:54:50 · 310 阅读 · 0 评论 -
Hadoop MR 之(二) 传递自定义数据类型 & 排序
前言前章, 我们介绍了简单的WordCount代码的基本实现(Hadoop MR 之(一) 编写自己的WordCount). 本章, 我们将介绍, 如何在Map/Reduce操作内传递自己的数据类型, 并根据部分关键值对进行排序操作.本文相关代码, 可在我的Github项目 https://github.com/SeanYanxml/bigdata/ 目录下可以找到. PS: (如果觉得项目不...原创 2019-04-06 02:22:22 · 407 阅读 · 0 评论 -
Hadoop MR 之(一) 编写自己的WordCount
前言在前面的内容几章内, 我们主要介绍了HDFS的相关内容. 本章开始, 我们讲解下经常使用的Hadoop MapReduce的相关内容.有人会觉得, 当前已经到了Spark几乎一统天下的时代, 学习Map/Reduce似乎没什么必要. 但是, 我觉得还是有点必要的. 主要原因有三:Hadoop的Map/Reduce框架应当堪称分布式离线计算的先河, 后面的开源项目多多少少对其有点借鉴;...原创 2019-04-06 01:23:15 · 1204 阅读 · 0 评论 -
Hadoop Shell 命令 与 WordCount
前言在前2章内, 我们分别介绍了Hadoop安装的3种形式(Standalone mode/ Pseudo-Distributed mode/Cluster mode). 本章, 我们介绍如何使用HDFS命令进行一些基本的操作. 官方的操作文档可以查看Hadoop Shell命令.正文前置条件已经安装Hadoop集群, 并启动. 从页面可以看到, 我们HDFS系统的文件目录.基本操作...原创 2019-03-30 17:34:51 · 474 阅读 · 0 评论 -
Hadoop HDFS 基本原理(文件上传 & 文件下载 & NameNode & Secondary NameNode)
前言在前面的几章内,我们介绍了Hadoop Shell 命令 与 WordCount与Hadoop HDFS的Java API使用. 本章我们稍微讲解下Hadoop的客户端提交、Hadoop服务端 、Secondary namenode原理.概述HDFS集群分为2大角色: NameNode 与 DataNode/Secondary NameNode.NameNode负责整个文件系统的原...原创 2019-04-03 23:09:19 · 797 阅读 · 5 评论 -
Hadoop安装(YARN 集群)
前言在前面的章节中, 我们介绍了Hadoop 安装(单结点). 本章中,我们介绍下Hadoop的集群安装模式.前置条件三台VMware虚拟机, 分别为:192.168.31.60192.168.31.61192.168.31.62其主机名称分别为: sean60/sean61/sean62(配置本机的/etc/hosts与/etc/hostname即可.)三台机器上都已经安...原创 2019-03-26 00:35:43 · 236 阅读 · 0 评论 -
Hadoop 安装(单结点)
前言Hadoop的部署与安装是Hadoop研究过程中必定不可缺少的一环. Hadoop部署方式分三种,Standalone mode、Pseudo-Distributed mode、Cluster mode,其中前两种都是在单机部署。本章主要讲述如何在Standalone mode与Pseudo-Distributed mode的部署方式.Hadoop的基本主件主要包括:HDFS (Nam...原创 2019-03-25 11:15:20 · 319 阅读 · 0 评论 -
ipc.Client: Retrying connect to server: xxx:9000. Already tried 0 time(s);解决方法
Questionsipc.Client: Retrying connect to server: h1/192.168.1.61:9000. Already tried 0 time(s);2018-03-05 15:57:55,929 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: 62rhel/192.1...原创 2018-03-07 00:59:11 · 3364 阅读 · 0 评论 -
Hadoop HDFS的Java API使用
前言在前面的章节中Hadoop Shell 命令 与 WordCount. 我们介绍了经常使用的HDFS经常使用的Shell命令. 本章我们讲解下 Hadoop的HDFS Java API.正文Reference[1].原创 2019-04-03 17:16:39 · 2732 阅读 · 0 评论