spark
hehuangwei
这个作者很懒,什么都没留下…
展开
-
使用SparkSQL的DataFrame对表数据进行过滤及多表关联操作
引言 DataFrame是spark 1.3版本之后引入的功能,大大扩展了SparkSQL的编程,借助于DataFrame,可以对不同的数据源进行操作,包括RDD,json,parque,jdbc,hive表等。 本篇有感于DataFrame的强大,对DataFrame的使用做一下笔记。假设有两个表数据,studentInfo表和studentScore表,表数据结构如下:现在需要过滤分数大于原创 2015-11-19 23:41:55 · 3636 阅读 · 0 评论 -
SparkSQL对hive数据源进行操作
SparkSQL提供了HiveContext类,它继承与SQLContext,因此不仅具有SQLContext的功能,而且还可以直接操作hive表中的数据,以及执行hive的sql语句。在上篇中,使用了json数据来表示表数据,然后后对表数据进行join操作,需要在javaRDD和DataFrame中转来转去,稍显繁琐。 本篇继续上一个问题,使用SaprkSQL对同样的两张表数据进行过滤并join原创 2015-11-20 09:06:32 · 1647 阅读 · 0 评论