大数据
柯希莫
这个作者很懒,什么都没留下…
展开
-
rdd利用groupbykey计算平均值
例子var ArrayRdd=sc.parallelize(Array((“b”,10),(“a”,20),(“c”,10),(“b”,30),(“b”,40))ArrayRdd.groupbykey().map(x=>{(x._1,x._2.sum/z._2.size)}).foreach(println)原创 2020-04-14 13:16:56 · 1214 阅读 · 0 评论 -
Hive-on-Spark
1.修改 hive/conf/hive-site.xml 新增如下配置<property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> </property> <pro...原创 2020-04-14 13:07:17 · 158 阅读 · 0 评论 -
Spark SQL多数据源交互
写数据package WR_sourceimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}import spark_sq...原创 2020-04-13 14:28:53 · 203 阅读 · 0 评论 -
Spark SQL自定义函数 UDF UDAF
直接上代码UDF 一进一出package sparksql_udfimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Dataset, SparkSession}object sparkSqlUDF { def main(args: Ar...原创 2020-04-13 14:26:25 · 163 阅读 · 0 评论 -
创建DataFrame/DataSet的三种方法
创建DataFrame/DataSet的三种方法下面直接copy代码**List item第1种:指定列名添加Schema**package spark_sqlimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{Intege...原创 2020-04-13 10:23:30 · 1079 阅读 · 0 评论 -
scala函数式编程之下划线_
scala函数式编程中可使用下划线来简化函数的定义,具体的规范是这样说的:当函数参数,只在函数体中出现一次,而且函数体没有嵌套调用时,可以使用下划线来简化函数定义。下面举个错误的例子:上面的例子就是错误的,因为map方法的参数只是一个,在方法体((1),(5))中却出现了两次,这与下划线的规范定义就不同了。所以正确的写法该是这样——不使用下划线简化:我们再来看看reduce方法:...原创 2020-04-05 10:42:46 · 264 阅读 · 0 评论 -
rdd利用reducebykey计算平均值
原创 2020-04-04 23:26:01 · 2212 阅读 · 0 评论