Spark SQL

创建DataFrames 

一、spark-shell版本

1)spark-shell版本
spark中已经创建好了SparkContext和SQLContext对象
2)代码:

spark-shell命令

./spark-shell --master spark://hdp-1:7077 --executor-memory 500m --total-executor-cores 1

//创建了一个数据集,实现了并行化

var seq = Seq(("1","xiaoming",15),("2","xiaohong",20),("3","xiaoben",10))

 加载信息:seq: Seq[(String, String, Int)] = List((1,xiaoming,15), (2,xiaohong,20), (3,xiaoben,10))

var rdd1 =sc.parallelize(seq)

加载信息: rdd1: org.apache.spark.rdd.RDD[(String, String, Int)] = ParallelCollectionRDD[0] at parallelize at <console>:26

将当前的rdd对象转换为DataFrame对象(数据信息和数据结构信息存储到DataFrame)
//_1:string,_2:string,3:int
rdd1.toDF

//在使用toDF进行转换的时候,空参的情况下。默认是+数据 作为列名,数字从1开始逐渐递增

val df = rdd1.toDF("id","name","age")

加载信息:df: org.apache.spark.sql.DataFrame = [id: string, name: string ... 1 more field]


 _1:列名,String当前列的数据类型
//查看数据 show 算子来打印,show是一个action类型 算子

查看数据

df.show

查询结果:

+---+--------+---+                                                              
| id|    name|age|
+---+--------+---+
|  1|xiaoming| 15|
|  2|xiaohong| 20|
|  3| xiaoben| 10|
+---+--------+---+

DSL 风格语法
1.查询:

1.1查询姓名

df.select("name").show

结果:

+--------+
|    name|
+--------+
|xiaoming|
|xiaohong|
| xiaoben|
+--------+

1.2查询姓名和年龄

df.select("name","age").show

结果:

+--------+---+
|    name|age|
+--------+---+
|xiaoming| 15|
|xiaohong| 20|
| xiaoben| 10|
+--------+---+

//条件过滤

//参数必须是一个字符串,filter中的表达式也需要时一个字符串

1.3查询年龄>10岁的姓名和年龄

df.select("name","age").filter("age >10").show

结果:

+--------+---+
|    name|age|
+--------+---+
|xiaoming| 15|
|xiaohong| 20|
+--------+---+

//2.参数是类名col (“列名”)

df.select("name","age").filter(col("age") >10).show

结果:

+--------+---+
|    name|age|
+--------+---+
|xiaoming| 15|
|xiaohong| 20|
+--------+---+

//3.分组统计个数

df.groupBy("age").count().show()

结果:

+---+-----+                                                                     
|age|count|
+---+-----+
| 20|    1|
| 15|    1|
| 10|    1|
+---+-----+

//4.打印DataFrame结构信息

df.printSchema

结果:

root
 |-- id: string (nullable = true)
 |-- name: string (nullable = true)
 |-- age: integer (nullable = false)

Sql 风格语法:

1.将DataFrame注册成表(临时表),

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值