- 博客(8)
- 资源 (31)
- 收藏
- 关注
原创 Spark: 数据读取与保存
Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。文件格式分为:Text 文件、Json 文件、Csv 文件、Sequence 文件以及 Object 文件;文件系统分为:本地文件系统、HDFS、HBASE 以及数据库。4.1.1 文本 文件1)数据读取:textFile(String) scala> val hdfsFile = sc.textFile...
2019-12-20 15:47:17 934
原创 Oracle常用日期操作
1. 'MON-YY' 转换为日期SELECT t.period_name, TO_CHAR(TO_DATE(t.period_name, 'MON-YY', 'NLS_DATE_LANGUAGE = American'), 'YYYYMM') FROM...
2019-12-17 11:06:35 494
原创 Spark算子:RDD键值转换操作–cogroup、join
cogroup ##参数为1个RDD def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))] def cogroup[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (Iterable[V], Iterab...
2019-12-06 17:00:55 251
原创 Spark算子,RDD键值转换操作 combineByKey
查看源代码会发现combineByKey定义如下: def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]= { ...
2019-12-06 14:24:13 341
原创 Spark算子,RDD键值转换操作 partitionBy、flatMapValues、mapValues
partitionBydef partitionBy(partitioner: Partitioner): RDD[(K, V)]该函数根据partitioner函数生成新的ShuffleRDD,将原RDD重新分区。scala> var rdd1 = sc.makeRDD(Array((1,"A"),(2,"B"),(3,"C"),(4,"D")),2)rdd1: org.a...
2019-12-05 10:42:10 363 1
原创 轻量级虚拟化Docker
一、Docker基本介绍Docker发端于一个名为dotcloud的开源项目;随着编写者不断挖掘它的潜力,它迅速变成了一个炙手可热的项目。它由GO语言编写的,并且只支持Linux。它基于Linux容器(LxC)来创建一个虚拟环境。Docker不会通过建立独有的操作系统、进程和对硬件进行模拟来创建属于自己的虚拟机。请注意:虚拟环境VE(Virtual Environment)和虚拟机(VM)很不...
2019-12-05 10:27:07 736
原创 Spark算子:几种不同的RDD创建操作
通过HiveContext创建RDDApache Hive 是 Hadoop 上的一种常见的结构化数据源。Hive 可以在 HDFS 内或者在其他 存储系统上存储多种格式的表。这些格式从普通文本到列式存储格式,应有尽有。Spark SQL 可以读取 Hive 支持的任何表。import org.apache.spark.sql.hive.HiveContextval hiveCtx =...
2019-12-04 14:06:02 260
原创 Spark的fold()和aggregate()函数
最近在学习spark,理解这两个函数时候费了一些劲,现在记录一下。1. rdd.fold(value)(func)说到fold()函数,就不得不提一下reduce()函数,他俩的区别就在于一个初始值。reduce()函数是这样写的:rdd.reduce(func)参数是一个函数,这个函数的对rdd中的所有数据进行某种操作,比如:val l = List(1,2,3,4)...
2019-12-04 12:09:26 333
Hadoop构建数据仓库实践_王雪迎PDF原版
2019-03-11
公共仓库元模型开发指南_彭蓉
2018-10-12
公共仓库元模型_数据仓库集成标准导论
2018-10-12
Oracle PLSQL程序设计 上 (第五版)_高清版
2018-07-18
bbed 10g x64 bit
2018-07-18
PLSQL developer 12.0.5+注册机+client
2018-07-18
Oracle Database 11gR2性能调整与优化
2018-07-18
Oracle查询优化改写 技巧与案例_高清带书签版本
2018-07-18
数据仓库工具箱:维度建模的完全指南(第二版翻译好)
2018-07-18
剑破冰山__Oracle开发艺术
2017-11-20
数据仓库工具箱 维度建模权威指南 第3版
2017-11-20
OCA Oracle Database 11g Administrator Certified Associate Study Guide
2014-08-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人