- 博客(4)
- 资源 (6)
- 收藏
- 关注
原创 Spark SQL源码函数解读及UDF/UDAF例子 spark研习第六集
四、 Spark SQL源码函数解读1. Spark SQL内置函数解密与实战SparkSQL的DataFrame引入了大量的内置函数,这些内置函数一般都有CG(CodeGeneration)功能,这样的函数在编译和执行时都会经过高度优化。问题:SparkSQL操作Hive和Hive on Spark一样吗?=> 不一样。SparkSQL操作Hive只是把H
2016-08-26 13:58:36 5360
原创 Spark SQL相关API操作实例 spark研习第五季
三、Spark SQL的操作实例1. Spark SQL数据加载和保存Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。
2016-08-26 13:54:33 3352
原创 Spark SQL与DataFrame原理解析与实现 spark研习第四季
二、 SparkSQL与DataFrame原理解析与实现1. SparkSQL与DataFrameSparkSQL之所以是除了SparkCore外最大的和最受关注的组件,原因是: A)处理一切存储介质和各种格式的数据(同时可以方便地扩展SparkSQL的功能来支持更多类型的数据,例如Kudo,Kudo在存储和计算效率间取得了完美的平衡),包括实时数据处理。201
2016-08-26 13:50:17 6164
原创 spark on hive原理与环境搭建 spark研习第三季
SparkSQL前身是Shark,Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具,后来开发了Shark,Shark依赖于Hive的解释引擎,部分在Spark中运行,还有一部分在Hadoop中运行。所以讲SparkSQL必须讲Hive。一、spark on hive原理与搭建1. hive的本质1)Hive是分布式数据仓库,同时又是
2016-08-26 13:46:33 5642
C++ Primer中文版 第5版 [(美)李普曼,(美)拉乔伊,(美)默著][电子工业出版社][2013.08][838页]
2016-05-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人