hadoop
文章平均质量分 51
撸依天
自由|共享
展开
-
hadoop-CDH4.7部署(详细)
一、准备工作 申请开通hadoop3测试集群防火墙权限 规划:主机IP系统节点JXQ-23-27-48.com.cn172.23.27.48CentOS release 6.4Namenode、zkfc、JobHistoryServerJXQ-23-2原创 2015-02-05 11:25:15 · 1560 阅读 · 0 评论 -
hadoop Unhealthy Nodes
http://xxxxxxx:8088/cluster/nodes/unhealthy下查看: 有三个节点nodemanager挂掉。 Healthy-report:2/2 local-dirs are bad: /export/hdfs/2/yarn/local,/export/hdfs/1/yarn/local; 2/2 log-dirs are bad: /export/hdfs/2原创 2015-07-13 18:22:46 · 2151 阅读 · 0 评论 -
hadoop Failed to load class "org.slf4j.impl.StaticLoggerBinder"
[root@JXQ-23-27-40 ~]# hadoop fs -ls /SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logger implementationSLF4J: See http://www.slf4j.org/code原创 2015-07-06 17:05:13 · 1531 阅读 · 0 评论 -
Failed to start Hadoop datanode. Return value: 1
启动某data节点失败:service hadoop-hdfs-datanode startstarting datanode, logging to /var/log/hadoop-hdfs/xxxx.outFailed to start Hadoop datanode. Return value: 1 [FAILED]vim /var/log/hadoop-hdfs/xxx原创 2015-07-14 11:00:08 · 2251 阅读 · 0 评论 -
Hadoop Web UI Queues参数解析
hadoop是通过队列管理集群资源,翻开集群Web UI,找到Schedule查看Queue State : queue 的状态 Used Capacity : 0.0% 已使用资源占队列配置值的百分比Absolute Used Capacity : 0.0% 已使用资源占集群的百分比Absolute Capacity : queue 至少可以使用系统资源占集群的百分比 Absol原创 2015-07-28 14:46:04 · 1256 阅读 · 0 评论 -
hadoop-CDH5.3 集群搭建(详细)
一. 准备工作规划: 1 . CDH5的YUM源设置:安装httpd作为http的yum源服务[root@JXQ-23-27-48 ~]# yum install httpd配置yum源(需要开通网络80端口)[root@JXQ-23-27-38 ~]# cat /etc/yum.repos.d/cloudera-cdh5.repo [cloudera-cdh5]# Package原创 2015-07-16 11:36:00 · 3815 阅读 · 0 评论 -
kill掉yarn正在运行的job/app
启动一个spark streaming,一直在跑,看着烦人,直接杀掉cd /usr/lib/hadoop-yarn/bin ./yarn application -kill application_1436784252938_0013查看状态: ./yarn application -status application_1436784252938_0013原创 2015-07-29 12:19:29 · 5705 阅读 · 0 评论 -
【采集层】Kafka 与 Flume 如何选择
采集层 主要可以使用Flume, Kafka两种技术。Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API.Kafka:Kafka是一个可持久化的分布式的消息队列。 1. Kafka 是一个非常通用的系统。你可以有许多生产者和很多的消费者共享多个主题Topics。相比之下,Flume是一个专用工具被设计为旨在往HDFS,HBase发送数据。它对HDFS转载 2015-08-10 17:32:34 · 349 阅读 · 0 评论 -
zookeeper与hbase
1,myid就是zoo.cfg里面的server.x=ip:A:B中的x。 2,如果hbase不管理zookeeper情况下,需要设置hbase-env.sh里面的export HBASE_MANAGES_ZK设置为false。 3,hbase管理zookeeper进程,和独立的zookeeper进程名字是不一样的。 引用HQuorumPeer进程是hbase管理的zookeeper原创 2015-08-10 19:56:09 · 1737 阅读 · 0 评论 -
yarn 根据applicationId查看日志
前提需要yarn开通日志聚合设置yarn logs -applicationId application_1436784252938_0022原创 2015-08-11 14:07:51 · 8326 阅读 · 0 评论 -
Spark将HDFS数据导入到HBase
本程序运行环境:Spark+HDFS+HBase+Yarn hadoop(HDFS+Yarn)集群搭建,参考:http://blog.csdn.net/korder/article/details/46909253 Spark on Yarn,参考:http://blog.csdn.net/korder/article/details/47422345 HBase集群搭建,参考:hbase表结原创 2015-08-11 16:16:03 · 2360 阅读 · 0 评论 -
Spark on Yarn 环境搭建(CDH5.3)
前提条件:1. 以现线上集群为模拟环境,搭建一套CDH5.3的hadoop集群 (http://blog.csdn.net/korder/article/details/46909253) 2. 执行用户 (此处以root为执行用户,真实环境另做处理)部署:1. 启动hadoop集群,如:38节点安装的主namenode [root@JXQ-23原创 2015-08-11 16:27:05 · 1747 阅读 · 0 评论 -
CDH5 安装过程中的一些问题总结
在安装过程中出错,或者中断,想从头再来安装的,可执行下面的一些操作: master节点:关闭server、agent /opt/cm-5.5.0/etc/init.d/cloudera-scm-server stop /opt/cm-5.5.0/etc/init.d/cloudera-scm-agent stop rm -rf /opt/cloudera/parcel-cache原创 2015-12-16 15:15:30 · 2813 阅读 · 0 评论 -
Hadoop-CDH4各个脚本文件的作用
1、sbin目录下的 1、distribute-exclude.sh 这个脚本用来将exclude文件分发到各个Namenode上。 2、hadoop-setup-conf.sh 1、这个脚本用来从模板xml配置文件中生成到etc目录下的配置文件。 2、针对特定的配置文件增加配置项 3、转载 2015-07-01 13:55:34 · 589 阅读 · 0 评论 -
卸载CDH4.7
主机 IP 系统 节点 YZ-xx.xx-11.h.cn 172.xx.xx.11 CentOS release 6.4 Namenode、zkfc、 YZ-xx.xx-12.h.cn 172.xx.xx.12 CentOS release 6.4 Namenode、zkfc原创 2015-06-26 13:59:36 · 454 阅读 · 0 评论 -
hadoop2.2.0集群搭建
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。注意:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.2.0就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我将编译好的64位的也上传到群共享里了,如果有兴趣的原创 2015-01-27 10:38:39 · 404 阅读 · 0 评论 -
hadoop distcp
hadoop中有一个叫做distcp(分布式复制)的有用程序,能从hadoop的文件系统并行复制大量数据。distcp一般用于在两个HDFS集群中传输数据。如果集群在hadoop的同一版本上运行,就适合使用hdfs方案: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar 这将从第一个集群中复制/foo转载 2015-02-04 19:37:02 · 714 阅读 · 0 评论 -
跑hive有时成功有时失败!org.apache.hadoop.hive.ql.exec.mr.MapRedTask
在hadoop日常工作中,本地运行hive有时成功有时失败遇到FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask异常原创 2015-01-22 11:31:41 · 4625 阅读 · 0 评论 -
搭建hadoop-2.6.0分布式集群
环境:Win7 + VM + Ubuntu 1、分别在3台虚拟Ubuntu机器上设置root用户密码,以后每次登录就用rootsudo -s 进入root权限模式vim /etc/lightdm/lightdm.conf [SeatDefaults]user-session=ubuntugreeter-session=unity-greetergreeter-s原创 2015-01-22 14:57:26 · 673 阅读 · 0 评论 -
hive的udf开发
Hive的UDF开发只需要重构UDF类的evaluate函数即可。例:public String evaluate(String key, String data) { // System.out.println("print 1234!"); try { if (null != key && null != data) { return decrypt原创 2015-03-23 16:08:47 · 1173 阅读 · 0 评论 -
fuse挂载hdfs
首先申请开通机器间的访问权限 如:源IP: 172.23.27.48 (实验机)目标IP:172.23.64.0/23 (就是172.23.64.0~172.23.64.255;64整个网段)目标端口:8020 50010 50020 50075端口类型:TCP 8020是nn的RPC通信地址50010是datanode 控制端口50020 是原创 2015-04-03 19:05:53 · 1094 阅读 · 0 评论 -
MR执行流程
MR执行流程(1).客户端提交一个mr的jar包给JobClient(提交方式:hadoop jar ...)(2).JobClient通过RPC和JobTracker进行通信,返回一个存放jar包的地址(HDFS)和jobId(3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)(4).开始提交任务(任务的描述信息,不是jar,转载 2014-10-26 23:48:45 · 2573 阅读 · 0 评论 -
Unable to initialize any output collector/无法初始化任何输出收集器
Map Reduce job failed with “Unable to initialize any output collector”问题: 2015-04-24 11:41:41,861 WARN [main] org.apache.hadoop.mapred.YarnChild: Exception running child : java.io.IOException原创 2015-04-29 14:53:40 · 3419 阅读 · 0 评论 -
欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl转载 2015-04-29 14:34:19 · 116 阅读 · 0 评论 -
hadoop拒绝链接ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:10020
hadoop mapred-site配置问题。 在服务器运行历史违约,所以您需要添加你的配置的主机。 mapreduce.jobhistory.address 10.11.149.123:10020配置主机/客户端,并在主机上启动historyserver./mr-jobhistory-daemon.sh start historyserv原创 2015-04-29 12:41:47 · 2682 阅读 · 0 评论 -
分布式文件系统介绍
常见的分布式文件系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。Google学术论文,这是众多分布式文件系统的起源==================================Google File System转载 2014-10-25 18:25:25 · 367 阅读 · 0 评论 -
Error: Java heap space 堆空间没有足够的RAM用于Java
Task Id : attempt_1430278348152_0005_m_000000_0, Status : FAILED Error: Java heap space 堆空间没有足够的RAM用于Java。在mapred-site.xml修改jvm启动的子线程可以使用的最大内存。 默认值:-Xmx200M<property> <name>mapred.child.java.op原创 2015-04-30 17:18:35 · 738 阅读 · 0 评论 -
Could not locate executable null\bin\winutils.exe in the Hadoop binaries
文章来自http://www.aboutyun.com/thread-8030-1-1.html问题导读:1.建一个MapReduce Project,运行时发现出问题:Could not locate executable null,该如何解决?2.Could not locate executabl ....\hadoop-2.2.0\hadoop-2.2.0\bin\转载 2015-04-28 18:32:44 · 2382 阅读 · 0 评论 -
容器使用超过了虚拟内存的限制大小,该容器被杀死,导致作业提交失败
is running beyond virtual memory limits. Current usage: 53.7 MB of 1 GB physical memory used; 4.4 GB of 2.1 GB virtual memory used. Killing container. 容器使用超过了虚拟内存的限制大小,该容器被杀死,导致作业提交失败physical mem原创 2015-05-04 18:05:27 · 2632 阅读 · 1 评论 -
CM离线安装CDH5.5.0
环境准备: 本机:mac 虚拟机软件:parallels desktop 虚拟机系统:Linux-CentOS 6.5 64位 主节点:master(1台) 从节点:slave1(1台) 原先设置了俩台从节点,资源太紧张,导致各种问题。做实验只能先部署俩台了。mster节点内存最少4G,slave1最少 1G。系统准备:1. 修改主机名: vim /etc/sysconfig原创 2015-12-16 14:55:04 · 1857 阅读 · 0 评论