hadoop
小胖头鱼
这个作者很懒,什么都没留下…
展开
-
hadoop1.0向hadoop2.0 distcp数据
报错:java.io.IOException: Check-sum mismatch between hftp://zw-tvhadoop-master:50070/user/hive/warehouse/pvlog_depth_rcfile/dt=20140306/_logs/history/job_201401231451_357062_1394133462287_tvhadoop_map原创 2014-03-07 11:34:46 · 1263 阅读 · 0 评论 -
hadoop Balance 优化
优化拷贝带宽(带宽的设置是影响datanode,设置单个datanode的balance带宽上限):[-setBalancerBandwidth ][@rm.tv.hadoop.sohuno.com ~]$ hdfs dfsadmin -setBalancerBandwidth 50000000Balancer bandwidth is set to 50000000 for nn.tv.原创 2016-03-21 15:20:05 · 3703 阅读 · 0 评论 -
hadoop Balancer 流程
main()->Cli.run()->Balancer.run()boolean done = false;for(int iteration = 0; !done; iteration++) { done = true; // 打散多个namespace Collections.shuffle(connectors); for(NameNodeConnect原创 2016-03-21 15:10:56 · 974 阅读 · 0 评论 -
通过webhdfs put文件到hdfs
通过rest API的webhdfs走的http,不需要安装hadoop客户端了。put代码如下:#!/bin/sh###################. /etc/profile. ~/.bash_profile##################echo =====================================`date`=======原创 2016-03-21 14:59:20 · 3827 阅读 · 0 评论 -
hadoop tasktracker 异常:PriviledgedActionException as:adlog cause:ENOENT: No such file or directory
今日发现一台tasktracker进入了Graylisted Nodes,查看其log发现如下报错:2015-04-10 11:53:49,539 INFO org.apache.hadoop.mapred.JobLocalizer: Initializing user rc on this TT.2015-04-10 11:53:49,549 WARN org.apache.h原创 2015-04-10 14:43:01 · 1810 阅读 · 0 评论 -
hadoop集群负载高导致的flume问题
flume->hdfs source是tail、channel是memory、sink是hdfsflume端报错:2015-01-29 01:55:58,424 (SinkRunner-PollingRunner-DefaultSinkProcessor) [WARN - org.apache.flume.sink.hdfs.BucketWriter.append(BucketWr原创 2015-01-29 14:11:07 · 2821 阅读 · 0 评论 -
hadoop job 抛出 Exception in thread "main" java.lang.NoClassDefFoundError: ___/tmp/hsperfdata_ 异常
hadoop的job抛出以下异常:Exception in thread "main" java.lang.NoClassDefFoundError: ___/tmp/hsperfdata_pctvlog/11835Caused by: java.lang.ClassNotFoundException: ___.tmp.hsperfdata_pctvlog.11835原创 2014-03-17 16:03:25 · 3436 阅读 · 0 评论 -
hadoop-2.2.0配合hive-0.12.0使用orc存储引发的bug
环境:hadoop版本:hadoop-2.2.0 (官网下载并编译为64位版本)hive版本:hive-0.12.0(官网下载后解压)集群状态良好,尝试普通hive以及mapreduce均成功。测试新版hive的orc存储格式,步骤如下:create external table text_test (id string,text string) row format原创 2014-03-13 18:54:08 · 5921 阅读 · 1 评论 -
hadoop2.0 执行框架
搭建hadoop2.0集群,按照官网上单机模式搭建,配置了三台节点,启动了resourcemanager以及三个nodemanager,结果运行job发现都是本地运行。查找原因是未加入如下配置mapred-site.xml mapreduce.framework.name yarn 集群框架默认是jobtracker也就是1.0框架。修改后集群运行。原创 2014-03-07 11:42:44 · 801 阅读 · 0 评论 -
如何通过程序kill掉后台运行shell脚本中的mapreduce和hive任务
现有的任务基本上都是在shell脚本中写入:hive -e "$sql" 或者 hadoop jar ... 通过这种形式提交到hadoop集群上,若想在脚本运行中kill掉任务,需要进行2步操作1. kill掉当前shell脚本所在进程(及其启动的子进程)2. 在hadoop集群上kill掉相应的mapreduce任务。其中第一步可以通过用脚本实现,前提是获取该shell脚本的p原创 2016-03-23 10:08:33 · 6276 阅读 · 0 评论