DataFrame的成员方法操作DF
- 单机启动Spark:%SPARK_HOME%/bin 目录下执行命令 sh spark-shell --master local
- 将数据库中的一个二维表转换成DataFrame对象,可以参考《 RDD封装成DataFrame的几种方式(SparkSQL模块) 》
- 首先我们将数据库中的一张表转换成DataFrame对象

下面列出DataFrame对象的一些常用方法:
查询

带条件查询

排序查询

分组聚合


表连接查询
先创建一个待连接的表,作为右边的表
![]()

不指定连接方式,默认inner join查询

左外连接

右外连接

查看列的属性信息

其它一些方法,比如获取前N条记录、某条记录第N个字段属性值

SQL语句操作DataFrame对象
首先我们通过Sparkssession对象复制出一张新表。
Spark2版本通过dataFrame.registerTempTable(“表名称”)复制出一个新表。
Spark3版本通过dataFrame.createTempView(“视图名称“)复制出一个视图
然后就可以通过SQL操作复制出来的那个视图

在Eclipse、Idea Itellij工具中操作DF对象
在Eclipse、Idea Itellij工具中操作DataFrame对象,和Shell模式一样。
需要注意的是Spark2和Spark3在API版本上有差异
下面的图是Spark3版本操作DataFrame对象的示例

需要把mysql的驱动包spark-sql_2.11-2.0.1.jar放入%SPARK_HOME%/jars
1316

被折叠的 条评论
为什么被折叠?



