- 博客(5)
- 收藏
- 关注
原创 kafka zookeeper 单节点安装测试
一 介质版本 kafka_2.11-1.1.1.tar zookeeper-3.4.5-cdh5.7.0.tar 二 安装 1、解压 tar -zxvf kafka_2.11-1.1.1.tar -C /app tar -zxvf zookeeper-3.4.5-cdh5.7.0.tar -C /app 创建软连接 ln -s kafka_2.11-1.1.1 kafka ln -s zooke...
2019-01-31 11:02:01 354
原创 记一次离线安装CDH-5.12.0错误
java.lang.IllegalArgumentException: Invalid value set for db.setupType, the valid values are EMBEDDED or EXTERNAL at com.google.common.base.Preconditions.checkArgument(Preconditions.java:92) at com.cl...
2019-01-11 10:36:59 358
原创 Hive自定义函数UDF
一、hive自定义函数有三种,即UDF,UDAF,UDTF。 UDF 一进一出 对每一条输入分别处理,有多少输入就有多少输出。 UDAF 多进一出 例如sum这种功能的函数,对输入数据有聚合功能。多条数据生成一条数据。 UDTF 一进多出 例如将一条数据按照规则切分为多列。一条数据生成多条数据。 二、这里介绍下最简单的UDF创建与使用 1、maven添加hive依赖 <...
2019-01-07 15:16:18 232
原创 spark之推测执行
1、什么是推测执行? 在spark作业运行中,一个stage里面的不同task的执行时间可能不一样,有的task很快就执行完成了,而有的可能执行很长一段时间也没有完成。造成这种情况的原因可能是集群内机器的配置性能不同、网络波动、或者是由于数据倾斜引起的。而推测执行就是当出现同一个stage里面有task长时间完成不了任务,spark就会在不同的executor上再启动一个task来跑这个任务,...
2019-01-04 16:19:20 1703
原创 Spark SQL之外部数据源
概述 从Spark 1.2版本开始,Spark SQL正式支持外部数据源。它可以通过DataFrame接口对各种数据源进行操作,例如orc,parquet,json,hive,jdbc,avro等。它既可以通过转换成RDD进行操作,也可以被创建为一个临时视图。将外部数据读入后创建为一个临时视图,可以用sql的方式进行查询处理。这个特性可以很方便让我们直接可以用Spark SQL操作各种格式的数...
2019-01-04 10:43:49 317
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人