自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 hadoop HA异常:Unable to start failover controller. Parent znode does not exist.

在namenode上执行./hadoop-daemon.sh start zkfc时,发现zkfc进程未启动,且报出如下错误:很明显,是由于Zookeeper上不存在namenode的临时节点。解决方法:1、登录Zookeeper,执行./zkCli.sh进入Zookeeper终端,执行如下命令:ls /结果发现,果然没有hadoop-ha节点。2、登录namenode节点,并执行...

2019-12-03 14:43:49 501

原创 hadoop distcp踩坑记

distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。1、在nn1上执行hadoop distcp hdfs://source-nn1:9000/user/xxx.txt hdfs://dest-nn1:9000/...

2019-10-22 18:24:55 2604 1

原创 spark运行example时遇到的问题

运行spark自带的demo:1、提交到clientbin/spark-submit --master spark://ip:7077 --class org.apache.spark.examples.SparkPi --executor-memory 2g lib/spark-examples-1.6.0-hadoop2.6.0.jarspark报错如下:Exception ...

2019-10-22 14:46:03 404

原创 namenode启动异常问题解决

HA集群配置完成并启动后,namenode不能正常启动。刚启动的时候 jps看到了namenode,但是隔了一两分钟,再看namenode就不见了。如果不启动journalnode,namenode运行正常,一旦启动journalnode,则namenode过一会就会挂掉。查看namenode日志,发现报错如下:2019-10-18 15:32:36,835 INFO org.apache....

2019-10-21 14:59:57 1638 1

原创 FATAL: Spool Directory source source: { spoolDir: /home/work/local/log }: Uncaught exception in

flume报错如下:28 Apr 2019 15:08:59,663 ERROR [pool-5-thread-1] (org.apache.flume.source.SpoolDirectoryExtSource2$SpoolDirectoryRunnable.run:277) - FATAL: Spool Directory source source1: { spoolDir: /h...

2019-04-29 11:07:20 1131

原创 spark算子:combineByKey详解

combineByKey是Spark中一个比较核心的高级函数, groupByKey、reduceByKey的底层都是使用combineByKey实现的,所以需要弄清楚它。def combineByKey[C](createCombiner: (V) => C,                                       mergeValue: (C, V) =&gt...

2018-10-19 16:12:51 386

原创 java.lang.NoSuchMethodError: scala.runtime.ObjectRef.create(Ljava/lang/Object;)Lscala/runtime/Object

在使用spark进行开发时,本地运行成功,但是上传到集群发生如下错误:java.lang.NoSuchMethodError: scala.runtime.ObjectRef.create(Ljava/lang/Object;)Lscala/runtime/ObjectRef;此问题是由于本地编译时用到的scala版本和Spark集群所用Scala版本不一致导致的,可以通过修改本地sca...

2018-10-08 19:55:37 2088

原创 Could not deallocate container for task attemptId attempt_1527460471557_511564_r_000000_0

hive任务执行出错,map和reduce进程一直为0%查看log日志发现,报错如下:Could not deallocate container for task attemptId attempt_XXX从字面意思可知,是因为没有给任务分配container,在创建容器的过程中出错了。通过查阅资料发现,主要是以下两个原因:(1)nodemanager内存不够;(2)yarn...

2018-09-26 20:11:50 1843

转载 JVM讲解和调优

一、什么是JVM    JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。    Java语言的一个非常重要的特点就是与平台的无关性。而使用Java虚拟机是实现这一特点的关键。一般的高级语言如果要在不同的平台上运行,至少需要编译成不同的目标代码。而引入Ja...

2018-05-12 20:17:15 321

转载 Mysql常用30种SQL查询语句优化方法

1、应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。2、对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。3、应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is...

2018-05-08 20:19:09 98

原创 Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the

启用hive时报以下错误:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path解决方法:[work@hadoop1 ~]$ cd ~/hive/conf/[work@hadoop1 ~]$ cp hive-env.sh.template hi...

2018-03-14 19:38:27 3053

原创 ip地址的long和String类型转换

public class ipToLong { /* public static long ipTolong(String strIp) {           String[] ip = strIp.split("\\.");           return (Long.parseLong(ip[0])  } */    // 将127.0.0.

2018-02-05 15:10:01 1245

转载 Hive设置map和reduce的个数

一、控制hive任务中的map数:通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);

2017-12-08 18:51:58 13380

转载 Hive Runtime Error while processing row

最近执行Hive任务时遇到如下错误:java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row (tag=0) {“key”:{“reducesinkkey0”:”00.26.37.E3.07.D3”,”reducesinkk

2017-11-21 21:13:17 10258

转载 数据倾斜

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。

2017-11-15 14:32:45 308

原创 Cannot obtain block length for LocatedBlock故障分析与解决

在执行hive任务的时候经常会遇到如下错误:  上层任务执行失败,导致后续任务积压,因此必须解决该问题。

2017-11-13 13:17:44 2810 1

原创 hadoop fsck命令详解

HDFS健康的标准:如果所有的文件满足最小副本的要求,那么就认为文件系统是健康的。 (HDFS is considered healthy if—and only if—all files have a minimum number of replicas available)检查HDFS的健康情况:hadoop提供了fsck tool来对整个文件系统或者单独的文件、目录来进行健康状态的检查。

2017-11-10 19:36:46 1214

转载 MapReduce shuffle过程剖析及调优

MapReduce简介在Hadoop MapReduce中,框架会确保reduce收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问题,并提供了很多配置项及扩展点。

2017-11-07 13:43:22 223

转载 Kafka背景及架构介绍

本文介绍了Kafka的创建背景,设计目标,使用消息系统的优势以及目前流行的消息系统对比。并介绍了Kafka的架构,Producer消息路由,Consumer Group以及由其实现的不同消息分发方式,Topic & Partition,最后介绍了Kafka Consumer为何使用pull模式以及Kafka提供的三种delivery guarantee。

2017-11-03 16:49:43 272

转载 Spark Streaming获取kafka数据的两种方式

Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论。本篇文章主要着眼于我们目前的业务场景,只关注Spark Streaming读取Kafka数据的方式。

2017-11-03 13:44:16 4766 1

转载 Hive SQL的编译过程

转载自:http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能

2017-11-01 16:31:52 198

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除