![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据-sparkSQL
文章平均质量分 80
汪本成
这个作者很懒,什么都没留下…
展开
-
SparkSQL------初涉
介绍 Spark SQL由两个重要组成部分 DataFrame API 将关系型的处理与过程型处理结合起来,可以对外部数据源和Spark内建的分布式集合进行关系型操作压缩的列式存储,而不是Java/Scala对象 Catalyst 提供了一整套性能分析、计划、运行时代码生成等的框架非常容易的添加数据源、优化规则、数据类型(比如机器学习)、控制代码生成原创 2016-07-04 18:37:11 · 1308 阅读 · 0 评论 -
SparkSQL------SQL,DataFrame,DataSet
简介 DataFrames在Spark-1.3.0中引入,主要解决使用Spark RDD API使用的门槛,使熟悉R语言等的数据分析师能够快速上手Spark下的数据分析工作,极大地扩大了Spark使用者的数量,由于DataFrames脱胎自SchemaRDD,因此它天然适用于分布式大数据场景。相信在不久的将来,Spark将是大数据分析的终极归宿。 在Spark中,DataFrame原创 2016-07-05 17:03:41 · 1127 阅读 · 0 评论