SparkSQL
在下蔡江琪
这个作者很懒,什么都没留下…
展开
-
spark-DataFrame,DataSet
首先先看一个rdd,DF,DS的转换图DataFrame创建://读取json文件 scala> val df=spark.read.json("G:/ccData/person.json")df: org.apache.spark.sql.DataFrame = [age: bigint, id: bigint ... 1 more field]scala&g...原创 2019-08-25 22:12:01 · 121 阅读 · 0 评论 -
SparkSQL-入门
什么是SparkSQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。SparkSQL特点1)引入了新的RDD类型SchemaRDD,可以像传统数据库定义表一样来定义SchemaRDD。2...原创 2019-08-22 12:57:01 · 250 阅读 · 0 评论 -
SparkSQL-基础查询
josn文件内容{"id":1, "name":"cc", "age":18}{"id":2, "name":"qiqi", "age":19}{"id":3, "name":"xiaohei", "age":17}{"id":1, "name":"cc2", "age":15}{"id":2, "name":"qiqi2", "age":20}{"id":3, "name":"...原创 2019-08-22 15:12:22 · 192 阅读 · 0 评论 -
代码块开发SparkSQL程序
先创建一个spark session导包(根据自己的版本来选择,我用的是spark2.4.3):<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2...原创 2019-08-26 13:16:39 · 189 阅读 · 0 评论 -
spark SQL自定义UDAF
json文件:{"name":"cc", "age":18}{"name":"qiqi", "age":19}{"name":"xiaohei", "age":17}继承UserDefinedAggregateFunctionimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.Rowimpo...原创 2019-08-26 22:30:17 · 135 阅读 · 0 评论 -
SparkSQL-通用加载和保存
Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame 注册为临时表之后,就可以对该DataFrame执行SQL查询Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时,Spark SQL可以方便的执行所有的操作。修改配置项spark.sql.sources.de...原创 2019-08-27 21:42:47 · 214 阅读 · 0 评论