Spark
stupidTomA
这个作者很懒,什么都没留下…
展开
-
SparkSQL自定义聚合函数
官网上介绍的自定义聚合例子 http://spark.apache.org/docs/latest/sql-getting-started.html#aggregations SparkSQL的聚合函数支持count(), countDistinct(), avg(), max(), min()等,但是肯定不满足,所以需要用户自定义函数 第一种 弱类型定义 extend UserDefi...原创 2020-03-31 21:55:56 · 247 阅读 · 0 评论 -
SparkSql 查询
import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object SparkSqlDemo { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("demo").setM...原创 2020-03-31 21:36:37 · 257 阅读 · 0 评论 -
RDD DataFrame DataSet 相互转化的方法
import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object Transform { case class People(name:String,age:Int) def main(args: Array[String]): Unit = { val sparkConf =...原创 2020-03-30 21:12:08 · 205 阅读 · 0 评论 -
idea中使用sparkSQL
1.配置jdk 1.8 2.配置scala scala-2.12.11 3.下载spark, 要和上面的Scala相对应,不然idea里面的醒目启动的时候会报错 4.下载hadoop 2.7.7 https://archive.apache.org/dist/hadoop/common/ ,配置HADOOP_HOME,并下载hadoop版本对应的winutils.exe 覆...原创 2020-03-29 15:22:21 · 718 阅读 · 0 评论 -
Spark Yarn 提交流程
spark-submit --class wordcount --master spark://aml168:7077 --driver-memory 800M --executor-memory 600M -...原创 2020-02-14 11:27:26 · 235 阅读 · 0 评论 -
记录学习spark遇到的问题
1.搭建好StandarOne之后,写了一个例子,将jar包上传到节点上去,运行任务 19/11/26 14:52:50 ERROR TaskSetManager: Task 1 in stage 0.0 failed 4 times; aborting job Exception in thread "main" org.apache.spark.SparkException: Job abo...原创 2019-11-26 15:12:56 · 740 阅读 · 0 评论