![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
mask_deeply
个人简介
展开
-
sparkSQL学习记录之一
Spark SQL是一个为了结构化数据处理的模块,并且提供了一个叫做DataFrames的编程抽象,它也能够作为分布式SQL查询引擎。DataFrames是一个分布式的由指定的列组成的数据集合,它相当于关系数据库中的表,或者R/Python中的数据框架,但是能够进行更多的优化。Data能够被各种wide array源所构造,如,结构化的数据文件,hive中表,外部数据库,或者存在的RDDs。翻译 2016-03-31 16:33:13 · 333 阅读 · 2 评论 -
sparkSQL学习记录之二
在SPARKSQL中也可以运行SQL语句来生成DataFrame。如val df=sqlContext.sql("SELECT * FROM table")Spark SQL支持2种方式转换存在的RDDS为DataFrames,第一中方式是使用反射去推断包含特定类型的对象的RDD的表的模式。当你在写Spark应用程序时,已经知道表的模式这种基于反射的方法会使代码更简洁,使用起来方便。第二种翻译 2016-04-01 09:43:59 · 494 阅读 · 0 评论 -
SparkSQL学习记录之三
这次我们讲讲SparkSQL的数据源。通过DataFrame接口,SparkSQL支持操作各种的数据源。DataFrame能够在普通的RDDs上被操作,也可被注册成一个临时表。将DataFrame注册成一个表,可以允许你使用SQL查询。下来我们讲讲如何使用一般的方法来加载和额保存数据,然后研究怎么指定要操作的数据源的选项。为了简单说明,默认的数据源(parquet格式)将被用在所有的演示中翻译 2016-04-18 15:39:01 · 628 阅读 · 0 评论