hadoop
文章平均质量分 78
cheersu
这个作者很懒,什么都没留下…
展开
-
Hadoop 权限管理
如下图,hadoop访问控制分为两级,其中ServiceLevel Authorization为系统级,用于控制是否可以访问指定的服务,例如用户/组是否可以向集群提交Job,它是最基础的访问控制,优先于文件权限和mapred队列权限验证。Access Control on Job Queues在job调度策略层之上,控制mapred队列的权限。DFSPermmision用户控制文件权限。目前版本中原创 2012-10-17 10:28:20 · 11751 阅读 · 0 评论 -
hive 自定义UDF UDAF UDTF
UDF步骤:1.继承org.apache.hadoop.hive.ql.exec.UDF2.实现evaluate函数,evaluate函数支持重载package cn.sina.stat.hive.udf;import java.util.Arrays;import org.apache.hadoop.hive.ql.exec.UDF;public final class S原创 2012-12-19 18:36:34 · 6746 阅读 · 0 评论 -
HIVE体系架构
*注:本文基于hive-0.8.1写的架构图:一、 service1、 hive有三种service,分别是cli,hiveserver和hwi。2、 cli是命令行工具,为默认服务,启动方式$HIVE_HOME/bin/hive 或 $HIVE_HOME/bin/hive --service cli。3、 hiverse原创 2012-12-18 16:17:47 · 10100 阅读 · 0 评论 -
Hadoop Job History解析——perl脚本
通过解析job history日志和job config文件可以获得Job的具体运行情况,包括job的配置信息、运行状态及task、Attempt的运行状态和相应的counter。脚本如下:parseJobHistory.pluse File::Basename;use XML::Simple;use Data::Dumper;if (!defined($ARGV[0]) or $原创 2012-12-23 14:31:15 · 2707 阅读 · 0 评论 -
hadoop集群目录配置与注意事项
一、目录配置参数说明参数描述备注位置hadoop.tmp.dir临时目录,其它临时目录的父目录。本地或hdfsdfs.name.dirnameNode的元数据(fsimage)存储目录。以逗号隔开,hdfs会把数据冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉。namenode本地d原创 2012-11-19 17:38:26 · 4687 阅读 · 0 评论 -
hadoop http address绑定内网地址
hadoop默认配置里http address接口domain段均为0.0.0.0,表示可通过任一网卡访问http接口,对于双网卡服务器(一个内网,一个外网),意味着公网用户可以随意访问hadoop系统开放的web资源,存在极大的安全隐患。我们可以修改配置将domain段替换成内网IP,这对于dfs.http.address、mapred.job.tracker.http.address没什么原创 2012-11-16 17:25:51 · 12562 阅读 · 0 评论 -
secondaryNamenode配置与nameNode故障恢复
*注:本文基于0.20.2配置测试,0.21以后已改成Checkpoint Node和Backup Node一、配置1. 在masters文件中添加 Secondary节点的主机名。*注:masters文件用于指定secondary的主机而不是namenode,slaves用于指定datanode和tasktracker, namenode由core-site.xml fs.de原创 2012-11-14 15:38:52 · 4634 阅读 · 0 评论 -
oozie web-console 时间本地化
Oozie web console(版本oozie-3.2.0-incubating)显示的时间是GMT,始终跟北京时间差8个小时,且格式不好看,通过修改$OOZIE_HOME/oozie-server/webapps/oozie/oozie-console.js可以将时间本地化(此修改只涉及web console显示,不影响任何后端处理、日志等)1、增加函数getLocalTimefun原创 2012-11-13 18:05:44 · 3464 阅读 · 0 评论 -
oozie hive action注意事项
注:本文指针对版本oozie-3.2.0-incubating。oozie-hive注意事项:理论上将hive相关的配置放在oozie.hive.defaults属性指定的文件(hive-default.xml)即可,如下: oozie.hive.defaults hiv原创 2012-11-13 18:31:10 · 3812 阅读 · 1 评论 -
Hive Job log解析——perl脚本
Hive Job log解析 cat parseHiveJobLog.pluse Data::Dumper;if (!defined($ARGV[0]) or $ARGV[0] eq ''){ print "useage: perl parseJobHistory.pl filename\n"; exit;}my $filename = $ARGV[0];my原创 2013-01-05 14:55:13 · 1863 阅读 · 0 评论