SparkSQL（Spark-1.4.0)实战系列（一）——DataFrames基础

最新推荐文章于 2020-12-09 17:52:06 发布

zhouzhihubeyond

最新推荐文章于 2020-12-09 17:52:06 发布

阅读量3.7k

点赞数 2

分类专栏： Spark 文章标签： spark 集群 DataFrame Spark-1-4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lovehuangjiaju/article/details/46900585

版权

本文介绍了Spark-1.4.0中的DataFrame，作为分布式数据集，DataFrame提供了元信息，支持大规模数据处理，与多种数据格式和存储系统的交互。通过Spark SQL Catalyst优化器实现高效优化。在实战部分，展示了如何从HDFS创建DataFrame，注册为表并进行SparkSQL操作。后续文章将进一步探讨DataFrame的原理和API使用。

摘要由CSDN通过智能技术生成

主要内容

本教程中所有例子跑在Spark-1.4.0集群上

DataFrames简介
DataFrame基本操作实战

DataFrames简介

本文部分内容译自https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html

DataFrames在Spark-1.3.0中引入，主要解决使用Spark RDD API使用的门槛，使熟悉R语言等的数据分析师能够快速上手Spark下的数据分析工作，极大地扩大了Spark使用者的数量，由于DataFrames脱胎自SchemaRDD，因此它天然适用于分布式大数据场景。相信在不久的将来，Spark将是大数据分析的终极归宿。

在Spark中，DataFrame是一种以RDD为基础的分布式数据集，与传统RDBMS的表结构类似。与一般的RDD不同的是，DataFrame带有schema元信息，即DataFrame所表示的表数据集的每一列都带有名称和类型，它对于数据的内部结构具有很强的描述能力。因此Spark SQL可以对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化，最终达到大幅提升运行时效率。

DataFrames具有如下特点：

Ability to scale from kilobytes of

最低0.47元/天解锁文章

zhouzhihubeyond

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
SparkSQL（Spark-1.4.0)实战系列（一）——DataFrames基础

主要内容本教程中所有例子跑在Spark-1.4.0集群上DataFrames简介DataFrame基本操作实战DataFrames简介本文部分内容译自https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.htmlDataFrames在Spark-1.
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。