自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 kafka zookeeper 单节点安装测试

一 介质版本 kafka_2.11-1.1.1.tar zookeeper-3.4.5-cdh5.7.0.tar 二 安装 1、解压 tar -zxvf kafka_2.11-1.1.1.tar -C /app tar -zxvf zookeeper-3.4.5-cdh5.7.0.tar -C /app 创建软连接 ln -s kafka_2.11-1.1.1 kafka ln -s zooke...

2019-01-31 11:02:01 354

原创 记一次离线安装CDH-5.12.0错误

java.lang.IllegalArgumentException: Invalid value set for db.setupType, the valid values are EMBEDDED or EXTERNAL at com.google.common.base.Preconditions.checkArgument(Preconditions.java:92) at com.cl...

2019-01-11 10:36:59 358

原创 Hive自定义函数UDF

一、hive自定义函数有三种,即UDF,UDAF,UDTF。 UDF 一进一出   对每一条输入分别处理,有多少输入就有多少输出。 UDAF 多进一出   例如sum这种功能的函数,对输入数据有聚合功能。多条数据生成一条数据。 UDTF 一进多出   例如将一条数据按照规则切分为多列。一条数据生成多条数据。 二、这里介绍下最简单的UDF创建与使用 1、maven添加hive依赖 <...

2019-01-07 15:16:18 232

原创 spark之推测执行

1、什么是推测执行?   在spark作业运行中,一个stage里面的不同task的执行时间可能不一样,有的task很快就执行完成了,而有的可能执行很长一段时间也没有完成。造成这种情况的原因可能是集群内机器的配置性能不同、网络波动、或者是由于数据倾斜引起的。而推测执行就是当出现同一个stage里面有task长时间完成不了任务,spark就会在不同的executor上再启动一个task来跑这个任务,...

2019-01-04 16:19:20 1703

原创 Spark SQL之外部数据源

概述   从Spark 1.2版本开始,Spark SQL正式支持外部数据源。它可以通过DataFrame接口对各种数据源进行操作,例如orc,parquet,json,hive,jdbc,avro等。它既可以通过转换成RDD进行操作,也可以被创建为一个临时视图。将外部数据读入后创建为一个临时视图,可以用sql的方式进行查询处理。这个特性可以很方便让我们直接可以用Spark SQL操作各种格式的数...

2019-01-04 10:43:49 317

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除