使用SparkSQL的DataFrame对表数据进行过滤及多表关联操作
引言
DataFrame是spark 1.3版本之后引入的功能,大大扩展了SparkSQL的编程,借助于DataFrame,可以对不同的数据源进行操作,包括RDD,json,parque,jdbc,hive表等。
本篇有感于DataFrame的强大,对DataFrame的使用做一下笔记。假设有两个表数据,studentInfo表和studentScore表,表数据结构如下:现在需要过滤分数大于
原创
2015-11-19 23:41:55 ·
3645 阅读 ·
0 评论