- 博客(3)
- 收藏
- 关注
原创 spark常见报错汇总
持续更新ing…Heap oomSpark程序本质上是一个分布式的jvm应用, 因此当内存设置不合理,内存有泄露,使用不当或者内存管理不够好的时候容易出现java heap oomDriver heap oom在Driver的日志中发现有OutOfMemoryError相关的日志,说明是driver oom导致作业失败,常见错误有java.lang.OutOfMemoryError: Java heap space atjava.lang.OutOfMemoryError: GC overhe
2020-12-24 10:12:02 1258
原创 DataFrame基本结构化操作
DataFrame是Row类型的Dataset集合。spark.range(2).toDF().collect()spark类型:可以通过如下使用Scala类型import org.apache.spark.sql._val b = ByteTypeDataFrame创建示例:val df = spark.read.format("json").loan("/data/t.json")创建的df可以通过如下方式查看模式:df.printSchema()df.schema列:有
2020-12-09 22:34:28 314
原创 scala的union算子
union算子在spark中可以直接传入Array[RDD[Int]]作为参数,返回拼接后的rdd。val a1 = Array(1,2,3)val a2 = Array(4,5,6)val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName("test")val sc = new SparkContext(conf)sc.setLogLevel("WARN")val rdd1: RDD[Int] = sc.ma
2020-10-21 10:48:34 2265
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人