2019年01月_夏至1208

04月 03月 02月 01月

原创 kafka zookeeper 单节点安装测试

一介质版本 kafka_2.11-1.1.1.tar zookeeper-3.4.5-cdh5.7.0.tar 二安装 1、解压 tar -zxvf kafka_2.11-1.1.1.tar -C /app tar -zxvf zookeeper-3.4.5-cdh5.7.0.tar -C /app 创建软连接 ln -s kafka_2.11-1.1.1 kafka ln -s zooke...

2019-01-31 11:02:01 354

原创记一次离线安装CDH-5.12.0错误

java.lang.IllegalArgumentException: Invalid value set for db.setupType, the valid values are EMBEDDED or EXTERNAL at com.google.common.base.Preconditions.checkArgument(Preconditions.java:92) at com.cl...

2019-01-11 10:36:59 358

原创 Hive自定义函数UDF

一、hive自定义函数有三种，即UDF，UDAF，UDTF。 UDF 一进一出对每一条输入分别处理，有多少输入就有多少输出。 UDAF 多进一出例如sum这种功能的函数，对输入数据有聚合功能。多条数据生成一条数据。 UDTF 一进多出例如将一条数据按照规则切分为多列。一条数据生成多条数据。二、这里介绍下最简单的UDF创建与使用 1、maven添加hive依赖 <...

2019-01-07 15:16:18 232

原创 spark之推测执行

1、什么是推测执行？在spark作业运行中，一个stage里面的不同task的执行时间可能不一样，有的task很快就执行完成了，而有的可能执行很长一段时间也没有完成。造成这种情况的原因可能是集群内机器的配置性能不同、网络波动、或者是由于数据倾斜引起的。而推测执行就是当出现同一个stage里面有task长时间完成不了任务，spark就会在不同的executor上再启动一个task来跑这个任务，...

2019-01-04 16:19:20 1703

原创 Spark SQL之外部数据源

概述从Spark 1.2版本开始，Spark SQL正式支持外部数据源。它可以通过DataFrame接口对各种数据源进行操作，例如orc,parquet,json,hive,jdbc,avro等。它既可以通过转换成RDD进行操作，也可以被创建为一个临时视图。将外部数据读入后创建为一个临时视图，可以用sql的方式进行查询处理。这个特性可以很方便让我们直接可以用Spark SQL操作各种格式的数...

2019-01-04 10:43:49 317

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 kafka zookeeper 单节点安装测试

原创 记一次离线安装CDH-5.12.0错误

原创 Hive自定义函数UDF

原创 spark之推测执行

原创 Spark SQL之外部数据源

空空如也

空空如也

原创记一次离线安装CDH-5.12.0错误