hadoop
文章平均质量分 51
空中的鱼1987
这个作者很懒,什么都没留下…
展开
-
hive相关元数据迁移(mysql)
ES; source /tmp/sentry.sql mysql参数[code="java"][mysqld]#transaction-isolation=READ-COMMITTED# Disabling symbolic-links is recommended to prevent assorted security risks;# to do so, uncomment this line:# symbolic-links=0so原创 2015-11-18 18:27:08 · 413 阅读 · 0 评论 -
ganglia监控hadoop各指标说明
原创 2012-11-20 14:04:05 · 90 阅读 · 0 评论 -
关于mapreduce解析xml的方法
原创 2012-03-29 11:52:02 · 185 阅读 · 0 评论 -
如何在mapreduce方法中获取当前使用文件(get file name)
;String filename=((FileSplit)inputSplit).getPath().getName();原创 2012-03-29 11:42:37 · 235 阅读 · 0 评论 -
如何提示mapreduce,查看systemout信息
原创 2012-01-14 14:47:40 · 73 阅读 · 0 评论 -
wordcount
e110.113.12.142 dataNode2具体的ip及hostname根据各自情况。原创 2012-01-11 17:40:30 · 70 阅读 · 0 评论 -
hbase Waiting on regionserver(s) to checkin
ver dataNode1,60020,1325442517098 has been rejected; Reported time is too far out of sync with master. Time difference of 864022329ms > max allowed of 30000ms等信息,不要小瞧了着warn,这个是罪魁祸首,将个个节点的时间调整到相近,或者同步一下就ok了。hbase shell>status 都能正常起来了原创 2012-01-11 12:16:48 · 103 阅读 · 0 评论 -
hadoop format后启动不了
mp等等文件。清除后format ok,启动ok原创 2012-01-11 12:13:53 · 95 阅读 · 0 评论 -
hive相关元数据迁移(mysql)
mysqldump -hhost -uroot -ppasswd sentry > /tmp/sentry.sql create database sentry DEFAULT CHARACTER SET utf8; grant all on sentry.* TO 'sentry'@'%' IDENTIFIED BY 'sentry'; flush PRIVILEG...原创 2015-11-18 18:27:08 · 881 阅读 · 0 评论 -
hive dynamic partitions insert java.lang.OutOfMemoryError: Java heap space
动态分区问题,如果数据量大或者当动态分区大甚至只有十几个时,会出现如下异常:2015-10-23 16:43:54,165 INFO [fetcher#10] org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl: assigned 20 of 34 to spark-03:13562 to fetcher#102...原创 2015-10-26 18:03:51 · 665 阅读 · 0 评论 -
hadoop-2.2.0编译import eclipse
编译hadoop-2.2.0下载hadoop-2.2.0-src包,解压安装好maven2执行mvn clean install -DskipTests运行报错:[ERROR] Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:2.2.0:protoc (compile-protoc) on proj...原创 2013-10-22 17:50:19 · 96 阅读 · 0 评论 -
hadoop-2.2.0单点安装
解压hadoop-2.2.0.tar.gz目录说明:drwxr-xr-x 2 qiulp qiulp 4096 Oct 22 11:37 bin/ ......hadoop命令及yarn命令drwxr-xr-x 3 qiulp qiulp 4096 Oct 7 14:38 etc/ ......site xml配置文件drwxr-xr-x 2 qiulp q...原创 2013-10-22 15:48:45 · 100 阅读 · 0 评论 -
mapreduce java.lang.ClassNotFoundException:
031058_0328_m_000007_0, Status : FAILEDjava.lang.RuntimeException: java.lang.ClassNotFoundException: com.test.HBaseToFile$TradeMap at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:867) at org.apache.hadoop.mapreduce.JobContext.getM原创 2013-03-07 15:06:26 · 497 阅读 · 0 评论 -
oozie 安装
原创 2013-09-29 18:22:30 · 101 阅读 · 0 评论 -
hive dynamic partitions insert java.lang.OutOfMemoryError: Java heap space
e.ShuffleSchedulerImpl: assigned 20 of 34 to spark-03:13562 to fetcher#102015-10-23 16:43:54,166 WARN [main] org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hive (auth:SIMPLE) cause:org.apache.hadoop.mapreduce.task.reduce.S原创 2015-10-26 18:03:51 · 176 阅读 · 0 评论 -
hive集成LDAP
ion.ldap.url ldap://master-71:389 hive.server2.authentication.ldap.baseDN ou=ndpmedia,dc=yeahmobi,dc=com测试例子:https://github.com/firecodeman/Cloudera-Impala-Hive-JDBC-Example奇怪现象:http://community.cloudera.com/t5/CDH-Manual-Install2015-02-13 10:09:45 · 2438 阅读 · 0 评论 -
sentry配置
有HadoopGroupResourceAuthorizationProvider(正式环境中)、LocalGroupResourceAuthorizationProvider(测试环境中)。经过测试,Hadoop groups需要使用将hadoop用户和用户组通过LDAP管理[url]configure ldap group mapping[/url],但配置后hdfs启动异常,并且若不配置ldap mapping,sentry provider file没有效果,所有表和库都看不到。采用简单的原创 2015-02-13 10:06:03 · 361 阅读 · 0 评论 -
hue beeswax权限管理
了认证,所以hive认证配置http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Security-Guide/cdh5sg_hive_security.html可以省略)[color=red]该条件是cloudera官方文档中说明的,据了解,可以不配置kerberos安全认证,同样可以使用sentry,但试过,求试过的同学个回复[/color]步骤:sudo -u hdfs hdfs原创 2014-08-05 17:54:55 · 164 阅读 · 0 评论 -
cloudera client集群部署
ent机器就使用CM进行添加。与通常增加新节点一样,只是在最后只选择gateway服务即可。client的段的xml配置,以及kerberos安全配置CM会自动生成。原创 2014-08-05 17:48:19 · 71 阅读 · 0 评论 -
cloudera manager kerberos配置
直接修改配置即可。若使用CDH版本hadoop,建议使用cm来配置kerberos。。。。有需求,我就写吧,赖的动。安装kerberos可以参考:http://www.cnblogs.com/easycloud/p/3724437.htmlhttp://www.cnblogs.com/easycloud/p/3724361.html原创 2014-08-05 17:37:44 · 113 阅读 · 0 评论 -
CDH5安装
原创 2014-08-05 17:05:37 · 65 阅读 · 0 评论 -
hadoop集群数据迁移
原创 2014-08-04 22:31:38 · 243 阅读 · 0 评论 -
java.lang.OutOfMemoryError: unable to create new native thread
.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.33.11:50010, storageID=DS-420686803-10.1.33.11-50010-1399181350037, infoPort=50 075, ipcPort=50020):DataXceiver135229 java.lang.OutOfMemoryError: unable to create new native thread1原创 2014-05-23 17:29:30 · 267 阅读 · 0 评论 -
hadoop-2.2.0编译import eclipse
.2.0:protoc (compile-protoc) on project hadoop-common: org.apache.maven.plugin.MojoExecutionException: protoc version is 'libprotoc 2.4.1', expected version is '2.5.0' -> [Help 1][ERROR] [ERROR] To see the full stack trace of the errors, re-run Mave原创 2013-10-22 17:50:19 · 91 阅读 · 0 评论 -
hadoop-2.2.0单点安装
置文件drwxr-xr-x 2 qiulp qiulp 4096 Oct 7 14:38 include/drwxr-xr-x 2 qiulp qiulp 4096 Oct 22 11:40 sbin/ ......启动命令drwxr-xr-x 4 qiulp qiulp 4096 Oct 7 14:38 share/ ......jar 源码(example jar)配置hadoop jdk环境变量修改etc/hadoop/hadoop-env.sh yarn原创 2013-10-22 15:48:45 · 79 阅读 · 0 评论 -
hive集成LDAP
cloudera manager hive- sevice wide - advanced-Hive Service Advanced Configuration Snippet (Safety Valve) for hive-site.xml hive.server2.authentication LDAP hive.server2.authenticat...2015-02-13 10:09:45 · 712 阅读 · 0 评论 -
sentry配置
当前cdh版本为5.2.0,且通过cloudera manger来管理集群。选择sentry配置方式,file or db。file形式(sentry-provider.ini),存于hdfs上。选择group mapping方式,有HadoopGroupResourceAuthorizationProvider(正式环境中)、LocalGroupResourceAuthori...原创 2015-02-13 10:06:03 · 183 阅读 · 0 评论 -
hue beeswax权限管理
http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Security-Guide/cdh5sg_sentry.html条件:Kerberos安全认证(使用cm配置安全认证后,hive自动也添加了认证,所以hive认证配置http://www.cloudera.com/content/...原创 2014-08-05 17:54:55 · 404 阅读 · 0 评论 -
hadoop format后启动不了
format后启动不了,可能是个个节点包括name节点的hadoop目录下有内容,需要把hadoop相关目录清除掉。例如:hdfs-site.xml里配的dfs.data.dir目录下的文件,及tmp等等文件。清除后format ok,启动ok...原创 2012-01-11 12:13:53 · 147 阅读 · 0 评论 -
hadoop-3.0新特性
Hadoop 3.0中引入纠编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等等。原创 2016-08-10 15:49:51 · 13216 阅读 · 0 评论 -
apache eagle 安装
Apache eagle installing介绍Apache eagle 目前0.4.0孵化版本已经可用,而新的0.5.0预计在2016年11月份发布。个人使用下来,主要有如下用处:- 监控敏感数据或者目录,监控操作次数- 监控hive表字段操作- 监控oozie coodinator任务情况- 监控警告可以是eagle自身存储、mail、kafka原创 2016-08-29 18:55:29 · 5629 阅读 · 9 评论 -
hive常用命令
整理一下,用的时候照着贴就行了。1.hive数据导出 将select的结果放到本地文件系统中INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;将select的结果放到hdfs文件系统中INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* F原创 2016-07-13 17:28:17 · 1199 阅读 · 0 评论 -
hue beeswax权限管理
http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Security-Guide/cdh5sg_sentry.html条件:Kerberos安全认证(使用cm配置安全认证后,hive自动也添加了认证,所以hive认证配置http://www.cloudera.com/content/cl原创 2016-07-13 17:28:07 · 1604 阅读 · 1 评论 -
cloudera manager kerberos配置
CDH5.1.0前的版本,可以通过cloudera manager各种配置或者手动修改etc下配置文件来配置,从CDH5.1.0后貌似clodera manager配置很简单,在界面的‘Administrator’下直接修改配置即可。若使用CDH版本hadoop,建议使用cm来配置kerberos。。。。有需求,我就写吧,赖的动。安装kerberos可以参考:http://www原创 2016-07-13 17:27:49 · 491 阅读 · 0 评论 -
hadoop集群数据迁移
hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar 如果想在两个运行着不同版本HDFS的集群上利用distcp,使用hdfs协议是会失败的,因为RPC系统是不兼容的。想要弥补这种情况,可以使用基于HTTP的HFTP文件系统从源中进行读取。这个作业必须运行在目标集群上,使得HDFS RPC版本是兼容的。例如:hadoop distcp原创 2016-07-13 17:27:21 · 601 阅读 · 0 评论 -
java.lang.OutOfMemoryError: unable to create new native thread
35227 2014-05-21 13:53:18,504 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Reopen already-open Block for append blk_8901346392456488003_201326135228 2014-05-21 13:53:18,506 ERROR org.apache.原创 2016-07-13 17:27:13 · 1159 阅读 · 0 评论 -
hadoop-2.2.0单点安装
解压hadoop-2.2.0.tar.gz目录说明:drwxr-xr-x 2 qiulp qiulp 4096 Oct 22 11:37 bin/ ......hadoop命令及yarn命令drwxr-xr-x 3 qiulp qiulp 4096 Oct 7 14:38 etc/ ......site xml配置文件drwxr-xr-x 2 qiulp qiulp原创 2016-07-13 17:25:51 · 335 阅读 · 0 评论 -
mapreduce java.lang.ClassNotFoundException:
好久没写mr了,今天写了个在eclipse上运行很顺畅,但是使用hadoop jar命令方式时一直报错:13/03/07 14:44:34 INFO mapred.JobClient: Task Id : attempt_201303031058_0328_m_000007_0, Status : FAILEDjava.lang.RuntimeException: java.lang.C原创 2016-07-13 17:24:59 · 972 阅读 · 0 评论 -
ganglia监控hadoop各指标说明
做个mark!监控指标大致如下:default.shuffleInputdfs.datanodejvmmapred.shuffleOutputrpcmetricssystem dfs.datanode.blockChecksumOp_avg_time 块校验平均时间dfs.datanode.blockChecksumOp_num_ops 块检验次数dfs.d原创 2016-07-13 17:22:27 · 1307 阅读 · 0 评论 -
hbase Waiting on regionserver(s) to checkin
hbase启动不来,一直checkin。查看日志含有:org.apache.hadoop.hbase.master.ServerManager: Waiting on regionserver(s) to checkinWARN org.apache.hadoop.hbase.master.ServerManager: Server dataNode1,60020,1325442517...原创 2012-01-11 12:16:48 · 123 阅读 · 0 评论