Hadoop
Eric-L90
New year,New life
展开
-
hdfs随机读写文件
hdfs适合因为存储的是大文件,从寻址等消耗来看,更加适合于流式的方式操作文件,但是,hdfs并不是不能进行随机读写,hdfs也是支持随机读写的。主要通过FSDataInputStream类读,通过FSDataOutputStream类写。下面是两个例子例1:从本地读,写入到hdfsimport java.io.IOException;import java.net.URI;im原创 2015-04-14 21:58:30 · 6748 阅读 · 0 评论 -
hadoop1.2.1+zk-3.4.5+hbase-0.94.1集群安装过程详解
转自:http://www.aboutyun.com/thread-7531-1-1.html这是非常详细的一个hadoop1.2.1的安装教程。而且里面好多的参数都进行了解释。简单易懂一,环境:1,主机规划:集群中包括3个节点:hadoop01为Master,其余为Salve,节点之间局域网连接,可以相互ping通。机器名称IP转载 2015-10-08 15:00:02 · 1618 阅读 · 0 评论 -
MapReduce之WordCount
package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.commons.math3.stat.descriptive.summary.Sum;import org.apache.hadoop.conf.Configuration;import org原创 2016-02-17 21:35:36 · 456 阅读 · 0 评论 -
在eclipse中运行mapreduce程序全过程,问题详解
一.简介 Windows下的 Eclipse上调试Hadoop2代码,所以我们在windows下的Eclipse配置hadoop-eclipse-plugin-2.6.0.jar插件,并在运行Hadoop代码时出现了一系列的问题,搞了好几天终于能运行起代码。接下来我们来看看问题并怎么解决,提供给跟我同样遇到的问题作为参考。 Hadoop2的WordCount.java统计代码如下转载 2016-02-17 14:59:07 · 7175 阅读 · 1 评论 -
Unable to create the pidfile.
安装cloudera namager时,cloudera-scm-server可以正常启动,cloudera-scm-agent启动失败: 查看日志 /opt/cm-5.7.0/log/cloudera-scm-agent/cloudera-scm-agent.out的内容,打印一下内容:/opt/cm-5.7.0/lib64/cmf/agent/build/env/lib/py转载 2016-05-20 20:32:19 · 1220 阅读 · 0 评论 -
java.net.NoRouteToHostException: No route to host
今天机房的机器都关了,在启动zookeeper的时候遇到标题的问题。搜了一下,大体上是防火墙的原因,所以关闭防火墙。systemctl stop firewalld.service centos7.重新启动。正常。其他的一些都是类似的问题。原创 2016-06-15 15:14:21 · 3224 阅读 · 0 评论 -
zookeeper3.3.3源码分析(二)FastLeader选举算法
转载自:http://blog.csdn.net/xhh198781/article/details/6619203 如何在zookeeper集群中选举出一个leader,zookeeper使用了三种算法,具体使用哪种算法,在配置文件中是可以配置的,对应的配置项是”electionAlg”,其中1对应的是LeaderElection算法,2对应的是AuthFastL转载 2017-03-22 15:01:51 · 374 阅读 · 0 评论 -
记一次解决hdfs一直不退出安全模式的问题的过程
重启hdfs后,发现hdfs进入了safemode,因为这是正常情况也就没有管。等他自动恢复正常。去吃了个午饭,睡了个午觉,回来发现日志里一片错误:Name node is is safe mode.这就不正常了,因为还要使用hbase,只能手动退出安全模式。执行:hdfs dfsadmin -safemode leave退出安全模式,然后发现,集群报错。。。说是有块丢失。so,进原创 2017-03-13 14:22:09 · 5859 阅读 · 4 评论 -
flink提交到yarn报错:Stack trace: ExitCodeException exitCode=3
2018-03-27 03:42:43,792 INFO org.apache.hadoop.yarn.server.resourcemanager.rmapp.RMAppImpl: Application application_1522121766020_0001 failed 2 times due to AM Container for appattempt_1522121766020_0...原创 2018-03-27 15:09:36 · 3413 阅读 · 0 评论 -
hadoop2.6.0版本集群环境搭建
一、环境说明1、机器:一台物理机 和一台虚拟机2、linux版本:[spark@S1PA11 ~]$ cat /etc/issueRed Hat Enterprise Linux Server release 5.4 (Tikanga)3、JDK: [spark@S1PA11 ~]$ java -versionjava version "1.6.0_27"Java(TM转载 2015-10-08 15:04:19 · 602 阅读 · 0 评论 -
Hive错误
1,因为某些原因,需要修改hdfs的端口,修改后hdfs和yarn正常,但是在使用hive的时候报错:FAILED:SemanticException Unable to determine if hdfs://**** is encrypted:java.lang.IllegalArgumentExcetion:Wrong FS:****看了一下,是因为mysql中保存的元数据中hdfs原创 2015-10-21 09:11:21 · 3032 阅读 · 0 评论 -
Hadoop 1.x中fsimage和edits合并实现
在《Hadoop NameNode元数据相关文件目录解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夹的几个文件:current/|-- VERSION|-- edits_*|-- fsimage_0000000000008547077|-- fsimage_0000000000008547077.md5`-- seen_txid转载 2015-08-21 15:07:47 · 696 阅读 · 0 评论 -
cloudera manager 添加开机启动
最近在使用Cloudera manager管理hadoop集群。为了方便自动化管理,需要添加开机自动启动。从网上搜了一下,在一个安装教程中找到了一个方法。这里我用的是cloudera-manager-el5-cm5.3.2_x86_64.tar.gz进行的安装。所以默认是在/opt目录下面的。 按照教程,需要做的是将/opt/cm-5.3.2/etc/init.d/原创 2015-05-05 16:06:00 · 5307 阅读 · 1 评论 -
Hadoop中HDFS写入文件的原理剖析
要为即将到来的大数据时代最准备不是,下面的大白话简单记录了Hadoop中HDFS在存储文件时都做了哪些个事情,位将来集群问题的排查提供一些参考依据。步入正题创建一个新文件的过程:第一步:客户端通过DistributedFilesystem 对象中的creat()方法来创建文件,此时,RPC会 通过一个RPC链接协议来调用namenode,并在命名空间中创建一个新文件,nam转载 2015-06-16 20:27:04 · 1312 阅读 · 0 评论 -
Hadoop杂谈
以前因为工作的需要研究过一段时间的Hadoop,不过最后公司还是没有用,就放了下来。现在觉得,既然研究过,把整个hadoop生态系统都研究完了。就不应该这么扔了,不一定什么时候就会用上。所以,决定回顾一下以前学习的hadoop知识,hdfs,yarn,mapreduce,hbase,pig,hive,zookeeper等原创 2015-06-04 09:43:00 · 563 阅读 · 0 评论 -
Hadoop回顾之Hadoop发展史
说到了Hadoop,那么,什么是Hadoop呢?我们先来了解一下什么是Hadoop。Hadoop:这个我们就没法顾名思义了。这只是一个玩具大象的名字。哈哈,是不是挺逗。这只大象也算是闻名世界了。Hadoop,用官方属于来说,就是一个由Apache基金会所开发的分布式基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。简单点说,Hado原创 2015-06-04 11:15:32 · 4520 阅读 · 0 评论 -
HDFS为什么使用大块,如64MB,以及推荐流方式访问文件
HDFS为什么使用大块,如64MB,128MB1,减少NameNode的压力。namenode用来存储hdfs上文件的元数据信息,如果是小文件,会导致产生大量的元数据信息。hdfs中每个文件,目录,和数据块的存储信息大约在150字节。这样,如果大量小文件会导致namenode内存不够用。2,最小化寻址时间。如果块设置的足够大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需要的原创 2015-06-04 13:58:18 · 1894 阅读 · 0 评论 -
hadoop安全模式管理
今天hadoop集群启动的时候遇到了安全模式的问题。这里说一下:hadoop安全模式,其实就是hadoop的一个自检模式。当我们启动集群的时候,hadoop会自动进行一些检测,比如数据块的检测。本来应该是3块,可是现在才2块,这个时候就进入了安全模式,知道恢复成3块,才会退出安全模式。这个模式下,我们是无法对hadoop集群进行操作的。所以,如果我们确定集群是正常的,可以手动退出:原创 2015-07-19 22:49:56 · 596 阅读 · 0 评论 -
Hadoop文件系统元数据fsimage和编辑日志edits
转自:http://www.iteblog.com/archives/968 在《Hadoop NameNode元数据相关文件目录解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夹的几个文件:current/|-- VERSION|-- edits_*|-- fsimage_0000000000008547077|--转载 2015-08-21 14:12:18 · 1071 阅读 · 0 评论 -
Hadoop 2.x中fsimage和edits合并实现
在《Hadoop 1.x中fsimage和edits合并实现》文章中,我们谈到了Hadoop 1.x上的fsimage和edits合并实现,里面也提到了Hadoop 2.x版本的fsimage和edits合并实现和Hadoop 1.x完全不一样,今天就来谈谈Hadoop 2.x中fsimage和edits合并的实现。 我们知道,在Hadoop 2.x中解决了NameNode的单点故障问题转载 2015-08-21 15:09:01 · 623 阅读 · 0 评论 -
记录一次namenode ha中一个namenode失效处理过程
生产环境中,一次重启,ha中一个namenode下image全部消失,最后没找到原因,所以进行恢复 首先进入安全模式: hdfs dfsadmin -safemode enter 然后刷一下active节点的log到image hdfs dfsadmin -saveNamespace 然后将active节点的image文件全部拷贝到故障节点的相应目录下 然后重启故障namenode ...原创 2018-06-04 19:17:34 · 1252 阅读 · 0 评论