Hadoop
疯狂呼呼呼
小鸟也有梦想
展开
-
HDFS Block损坏的解决方式与思考
背景&现象断电导致HDFS服务不正常,并显示块损坏恢复步骤检查HDFS系统文件健康$>hdfs fsck /注:通过web ui也可以进行查看检查是对应的哪些block发生了损坏$>hdfs fsck -list-corruptfileblocks出来的结果是损坏的block及对应的file所在的路径生产场景分析业务场景如下:MySQL ----同步数据--...原创 2019-09-09 01:03:46 · 1449 阅读 · 0 评论 -
编译hadoop2.6.0-cdh5.7.0 native支持snappy & 编译中遇到的坑及解决办法
前沿使用官网自带的hadoop-2.6.0-cdh5.7.0.tar.gz所解压之后,安装部署的hadoop环境,往往在执行checknative命令的时候,发现诸如zlib、snappy、lz4、bzip2、openssl的检查不通过。而这样会对我们使用各种压缩的时候带来不便,因此我们需要自己去手动编译,使其支持native。编译准备编译前我们需要做如下几步:部署JAVA环境安装maven安原创 2017-10-23 16:35:21 · 813 阅读 · 1 评论 -
Hadoop HA初识
HDFS HA架构图如下: HDFS HA使用Active NameNode, Standby NameNode 两个结点解决单点问题,两个节点通过JounalNode共享状态,通过ZKFC 选举Active , 监控状态,自动备援。 DN会同时向ActiveNN和StandbyNN发送心跳。Active NameNode: 接受client的RPC请求并处理,同时写自己的Edi...原创 2018-03-11 17:47:27 · 299 阅读 · 0 评论 -
MapReduce实现CommonJoin和MapJoin
CommnoJoin和MapJoin简介CommonJoin即传统思路实现Join,性能较差 因为涉及到了shuffle的过程 common join/shuffle join/reduce join (都是指同一个) MapJoin 也叫作 boardcast join,但是MapJoin不会有reduce阶段和shuffle阶段原创 2017-10-11 23:16:47 · 1346 阅读 · 0 评论 -
Hadoop源码编译
Linux环境:CentOS 6.5 版本:Hadoop 2.7.4 下载地址:http://mirrors.shuosc.org/apache/hadoop/common/hadoop-2.7.4/hadoop-2.7.4-src.tar.gz 参考文档:https://github.com/apache/hadoop/blob/trunk/BUILDING.txt原创 2017-09-29 20:23:00 · 1082 阅读 · 0 评论 -
考究Hadoop中split的计算方法
Hadoop中block块大小和split切片大小会影响到MapReduce程序在运行过程中的效率、map的个数。在本文中,以经典入门案例WordCount为例,通过debug的方式跟踪源代码,来分析hadoop中split的计算方法。原创 2017-08-24 18:31:28 · 1860 阅读 · 0 评论 -
考察Hadoop的底层rpc通信(二)
本篇文章将延续前篇文章的内容考察Hadoop的底层ipc通信(一),继续剖析Hadoop的底层ipc通信。通过debug的方式,对自己所写的ipc demo进行通信数据流的分析。原创 2017-08-26 14:07:35 · 755 阅读 · 0 评论 -
考察Hadoop的底层rpc通信(一)
简介IPC:inter process communication 即进程间通信 RPC: remote procedure call 即远程过程调用 IPC是进程间通信的过程,RPC作为远程过程的调用,必定会涉及到IPC通信 本文将对Hadoop IPC进行剖析原创 2017-08-25 23:43:34 · 3053 阅读 · 0 评论 -
SequenceFile & MapFile
本文对Hadoop中基于文件的数据格式SequenceFile 和MapFile进行了介绍原创 2017-05-01 00:46:01 · 1247 阅读 · 1 评论 -
浅析Hadoop启动脚本
通过shell脚本的阅读,浅析hadoop的启动脚本,进行简要的总结原创 2017-04-30 01:55:48 · 1459 阅读 · 0 评论 -
Hadoop机架感知配置
在hadoop2.7.3中的机架感知策略,可通过编程实现接口与修改配置文件的方式进行实现 第一个复本在client所处的节点上。如果客户端在集群外,随机选择一个 第二个复本和第一个复本不为相同机架 第三个复本和第二个复本所在机架相同原创 2017-04-30 01:19:05 · 1778 阅读 · 0 评论 -
Hadoop-2.7.3完全分布式环境搭建及环境部署脚本编写
完全分布式搭建注:hadoop启动之后生成的文件均保存在了临时目录/tmp下,因此每次重新启动之前就需要格式化一回;可在配置文件里配置,这里并没有配置,在后续的文章里会进行介绍 在虚拟机中选择创建5台Ubuntu来进行完全分布式环境的搭建,使用工具SecureCRT 7.3,具体如何配置每台机器的IP地址,并实现联网,参考我的前序文章:VMware虚拟网络配置及原理;环境变量的设置也请参考我的前原创 2017-03-04 00:20:49 · 1445 阅读 · 0 评论 -
Hadoop-2.7.3环境搭建之伪分布式模式
Hadoop 2.7.3 版本环境变量配置及伪分布式环境配置原创 2017-03-04 00:05:56 · 888 阅读 · 0 评论 -
mac下编译Hadoop 2.8.1报错An Ant BuildException has occured: exec returned: 1,排错过程
编译hadoop 2.8.1,产生报错,报错信息如下:通过报错信息,我们去对应的路径下查看build-main.xml文件:<?xml version="1.0" encoding="UTF-8" ?><project name="maven-antrun-" default="main" ><target name="main原创 2019-02-07 00:32:23 · 7403 阅读 · 0 评论