hadoop
文章平均质量分 87
pigcoffee
精通C++、分布式应用,数据仓库、PostgreSQL相关工作。
展开
-
Hadoop入门--hadoop2伪分布式安装
伪分布式安装:1、java环境变量配置在.bash_profile文件中加入如下环境变量:####################JAVAHOME####################exportJAVA_HOME=/usr/lib/jvm/jre-1.6.0-openjdk.x86_64exportJRE_HOME=$JAVA_HOME/jreexportCLASSPA原创 2013-06-22 12:23:57 · 1857 阅读 · 0 评论 -
Tez优化参数设置
Tez计算引擎优化,主要从内存、Mapper数设置、Reducer数设置角度出发。原创 2017-09-25 22:10:40 · 26194 阅读 · 0 评论 -
Yarn metrics参数说明
获取Yarn jmx信息:curl -i http://node01:8088/jmxHadoop:service=ResourceManager,name=FSOpDurationsHadoop:service=ResourceManager,name=JvmMetricsHadoop:service=ResourceManager,name=ClusterMetri原创 2017-08-01 10:43:45 · 4676 阅读 · 0 评论 -
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform问题解决
问题描述执行hadoop fs -ls / 命令报如下错误:17/07/21 17:50:33 WARNutil.NativeCodeLoader: Unable to load native-hadoop library for yourplatform... using builtin-java classes where applicableFound 1 items问题解决原创 2017-07-21 18:08:20 · 983 阅读 · 0 评论 -
计数器参数详解
计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计。计数器还可以辅助诊断系统故障。MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 MapReduce Job 运行期的各种细节数据。对MapReduce性能调优很有帮助,MapReduce性能优化的评估大部分都是基于这些 Counter 的数值表现出来的。原创 2017-06-20 23:37:41 · 2775 阅读 · 0 评论 -
NodeManager异常宕掉--GC overhead limit exceeded
org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch: Failed to launch container.java.lang.OutOfMemoryError: GC overhead limit exceeded原创 2017-05-15 22:40:36 · 5194 阅读 · 1 评论 -
Hadoop集群占用系统态Cpu较高问题解决
Hadoop是个高密集型内存运算系统,这个改动似乎给它带来了副作用。理论上运算型Java程序应该更多的使用用户态CPU才对,Cloudera官方也推荐关闭THP。echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabledecho never > /sys/kernel/mm/redhat_transparent_hugepage/defrag原创 2017-05-04 16:13:03 · 5525 阅读 · 0 评论 -
Hadoop学习笔记10@进程起停
HDFS启动JournalNode启动在每一个journalnode上进入$HADOOP_HOME执行:#${HADOOP_HOME}/sbin/hadoop-daemon.sh startjournalnode执行完成后,通过jps查看JournalNode进程是否启动正常。NameNode初始化在一个namenode上进入$HADOOP_HOME执行如下命令实现初始化h原创 2017-04-01 16:47:32 · 413 阅读 · 0 评论 -
Hadoop学习笔记2:eclipse运行Mapreduce程序问题总结
eclipse运行Mapreduce问题总结:(null) entry in command string:null chmod 0700PriviledgedActionException as:Administrator cause:java.io.IOExceptionorg.apache.hadoop.metrics2.lib.MutableMetricsFactory日志打不出来,报警告信息原创 2017-01-22 16:13:06 · 5610 阅读 · 0 评论 -
Hadoop学习笔记1:Hadoop2.7.3分布式部署-Eclipse开发环境部署
Hadoop2.7.3分布式安装Hadoop2.7.3 Eclipse插件编译Eclipse插件连接不上HDFS问题解决原创 2017-01-07 09:15:27 · 3106 阅读 · 0 评论 -
Hadoop学习笔记9@JobHistoryServer详解
历史服务器,管理者可以通过历史服务器查看已经运行完成的Mapreduce作业记录,比如用了多少个Map、多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。默认情况下,历史服务器是没有启动的,需要进行参数配置才能启动。原创 2017-04-01 16:43:51 · 5473 阅读 · 0 评论 -
问题解决1@hdfs实际数据和备份数据不一致
Fsck检查HDFS,发现副本缺失;hadoop fsck / | grep replicated | grepTarget |awk -F ":" '{print $1}' |xargs hadoop fs -setrep -R 3原创 2017-03-09 16:15:38 · 1489 阅读 · 0 评论 -
Hive学习笔记1@Hiveserver2高可用实现
在生产环境中使用Hive,强烈建议使用HiveServer2来提供服务,好处很多:在应用端不用部署Hadoop和Hive客户端;相比hive-cli方式,HiveServer2不用直接将HDFS和Metastore暴漏给用户;有安全认证机制,并且支持自定义权限校验;有HA机制,解决应用端的并发和负载均衡问题JDBC方式,可以使用任何语言,方便与应用进行数据交互;原创 2017-03-03 15:49:57 · 6302 阅读 · 0 评论 -
Hadoop全链路监控方案
Hadoop平台监控主要分为两个层面:宏观层面监控和微观层面监控。宏观层面就是Node级别,拓扑结构级别,DataNode、NameNode、JournalNode、ResourceManager、NodeManager,HMaster、RegionServer、Hiveserver2,这几个组件,通过分析这些节点上的监控数据,一般你能够定位到慢节点,可能某台机器的网络出问题了,或者说某台机器执行的时间总是大于正常机器等等这样类似的问题。微观层面,指细粒度化的监控,基于User级别、Job级别、Task级别原创 2017-10-10 11:46:40 · 4089 阅读 · 0 评论