初识DataFrames

最新推荐文章于 2024-06-15 09:37:25 发布

jmschentt

最新推荐文章于 2024-06-15 09:37:25 发布

阅读量783

点赞数

分类专栏： DataFrame 文章标签： hive

0 篇文章 0 订阅

订阅专栏

源：http://www.csdn.net/article/2015-02-17/2823997

在spark中，DataFrames是一个以命名列方式组织的分布式数据集，等同于关系型数据库中的一个表，也相当于R/Python中的dataFrames（但是进行了更多的优化）。dataFrames可以由结构化数据文件转换而来，也可以从hive中的表得来，以及可以转换自外部数据库或现有的RDD。

下面代码演示了如何使用Python构造DataFrames，而在Scala和Java中也有类似的API可以调用。

一经构建，DataFrames就会为分布式数据处理提供一个指定的DSL（domain-specitic language）

tongguo Spark SQL，还可以用SQL的方式操作DaraFrames.

类似于RDD，DataFrames同样使用了lazy的方式。也就是说，只用动作真正发生时，计算才会进行，从而，通过一些技术，执行过程可以适当进行优化。

关注

专栏目录