DataFrame的成员方法操作DF
- 单机启动Spark:%SPARK_HOME%/bin 目录下执行命令 sh spark-shell --master local
- 将数据库中的一个二维表转换成DataFrame对象,可以参考《 RDD封装成DataFrame的几种方式(SparkSQL模块) 》
- 首先我们将数据库中的一张表转换成DataFrame对象
下面列出DataFrame对象的一些常用方法:
查询
带条件查询
排序查询
分组聚合
表连接查询
先创建一个待连接的表,作为右边的表
不指定连接方式,默认inner join查询
左外连接
右外连接
查看列的属性信息
其它一些方法,比如获取前N条记录、某条记录第N个字段属性值
SQL语句操作DataFrame对象
首先我们通过Sparkssession对象复制出一张新表。
Spark2版本通过dataFrame.registerTempTable(“表名称”)复制出一个新表。
Spark3版本通过dataFrame.createTempView(“视图名称“)复制出一个视图
然后就可以通过SQL操作复制出来的那个视图
在Eclipse、Idea Itellij工具中操作DF对象
在Eclipse、Idea Itellij工具中操作DataFrame对象,和Shell模式一样。
需要注意的是Spark2和Spark3在API版本上有差异
下面的图是Spark3版本操作DataFrame对象的示例
需要把mysql的驱动包spark-sql_2.11-2.0.1.jar放入%SPARK_HOME%/jars