EasyHadoop
EasyHadoop开源社区(www.easyhadoop.com)致力于在中国推广和普及Hadoop相关技术,是国内最早专注于Hadoop开发、应用、推广的机构组织,推出的EasyHadoop版本更易于开发,功能更强大。
azhao_dn
关注hadoop 数据挖掘
展开
-
Hadoop2 MR-JobHistory服务介绍
1)MR-JobHistory服务目标主要是向用户提供历史的mapred Job 查询2)MR-JobHistory服务架构详细解释:a)在运行MR Job时,MR 的 ApplicationMaster会根据mapred-site.xml配置文件中的配置,将MR Job的job history信息保存到指定的hdfs路径(首先保存到临时目录,然后mv到最终目录)原创 2015-05-15 11:09:59 · 15385 阅读 · 2 评论 -
Hadoop 2:Capacity Scheduler配置项说明
yarn.scheduler.capacity.A.capacity队列A的最低保障容量(百分比)(所有队列总和相加为100)yarn.scheduler.capacity.A.maximum-capacity队列A可以获取到的最大容量(不予保障)(集群空闲时从其他队列借取)yarn.scheduler.capacity.A.minimum-user-limit-p原创 2015-05-14 14:57:47 · 7436 阅读 · 0 评论 -
hive 0.10.0 杂记
1. conf/hive-site.xml支持 Allow SELECT without a mapreduce job hive.fetch.task.conversion more Some select queries can be converted to single FETCH task minimizing latency. Curren原创 2013-01-29 18:11:37 · 1219 阅读 · 1 评论 -
使用java开发mapred时遇上的奇怪问题
1)错误代码:输入文件的key class 为LongWritable ,和Text 不匹配 错误原因:最初设定程序的输入文件为sequence file ,生成的测试数据 为 text file,而 text file 的key 为该行的偏移量,为LongWritable2)错误代码:Text 不能转化为 LongWritable 错误原因:在初始化mapred原创 2012-11-29 16:59:46 · 4781 阅读 · 1 评论 -
hive UDF开发注意事项
在开发的hive UDF中,有时候需要使用到第三方jar包,一般的做法是把第三方jar包和udf一起打包,结果在测试udf时,hive报错:java.lang.ClassNotFoundException 解决办法: 1)在运行hive hql时,手动将udf所需要的jar包 通过add语句 添加(测试通过); 2)将udf所需原创 2012-11-14 12:04:14 · 8198 阅读 · 2 评论 -
hadoop运维记录之二:tasktracker启动后”假死“
由于hadoop集群中某台服务器磁盘损坏,导致该服务器tasktracker 任务失败率大增(失败原因:分配到该服务器的任务的临时目录选择了损坏的磁盘,导致job初始化是失败),所以决定将坏的磁盘从tasktracker中的mapred本地目录中删除,然后重启tasktracker。 操作步骤如下: 1)修改完mapred-site.xml配置文件;原创 2012-05-30 15:09:48 · 3871 阅读 · 1 评论 -
mapred streaming 脚本输出运行状态导致的奇怪问题
今天在调试mapred streaming脚本时,发生了非常奇怪的问题:mapred脚本在被tasktracker调用后总是会随机的失败,错误信息如下:java.lang.RuntimeException: java.lang.NullPointerException at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(Pi原创 2012-06-13 15:46:19 · 3088 阅读 · 1 评论 -
hadoop运维之jobtracker无故停止服务
今天下午同事在使用hive提交查询时,抛出执行错误: 于是打开jobtracker的管理页面,发现正在运行的job数目为零,tasktracker心跳正常,这一异常现象让我觉得jobtracker可能是停止服务了(一般很少出现集群的运行job数为零的情况),于是手动提交了一个mapred任务进行测试,运行错误信息如下:12/07/03 18:07:22 INFO hdfs原创 2012-07-03 18:48:22 · 5611 阅读 · 1 评论 -
hadoop运维之三datanode被迫的升级
由于最近集群xcievers错误频频发生,已经到了影响集群正常运营的地步,于是决定修改集群所有的datanode节点的配置,并重启datanode,欲添加的配置项如下: dfs.datanode.max.xcievers 256 修改完配置文件后,在重启datanode时发生了麻烦,datanode启动日志报出原创 2012-07-11 11:04:50 · 3812 阅读 · 1 评论 -
hadoop集群balance工具详解
在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。 1) hadoop balance工具的用法:To start:bin/start-balancer.sh [-threshold ]Ex原创 2012-07-12 19:04:13 · 26415 阅读 · 1 评论