SparkSQL
wangzhantao
这个作者很懒,什么都没留下…
展开
-
Spark
一、Spark SQL定义:Spark的一个针对结构化数据操作的一个模块 作用: 1 用SQL或者DataFrame进行结构化数据处理在Spark的程序中 2 可以处理任何数据源包括:Hive,Parquet,ORC,json, 和jdbc,甚至可以将这些数据进行join操作 3 对于Hive中已经存在的数据进行查询和UDF的处理 4 可以进行JDBC连接进...原创 2016-07-08 18:19:43 · 80 阅读 · 0 评论 -
Spark基础实例
spark 操作的几个步骤 1 数据关联 textFile 和 parallelize 2 转换操作(JavaRDD和JavaPairRDD他们可以通过mapToPair and flatMapToPair转换) 3 action操作,获取数据结果 一、wordcount的例子 //单词统计 public static void wordCount(...原创 2016-07-15 17:38:57 · 169 阅读 · 0 评论 -
Spark中几个重要名词
spark几个名词 1 job,一个action操作触发一个job action的一些操作http://spark.apache.org/docs/latest/programming-guide.html#actions 2 stage划分 1)有shuffle操作,则shuffle之前为一个 stage 2)数据落地输出则为一个 stage 3 Ta...原创 2017-02-09 19:30:16 · 290 阅读 · 0 评论