Spark2.3.1使用技巧

Spark 2.3.1 使用技巧

Spark-SQL 读取JSON文件时反射表头

case class StudentInfo(id:Long,name:String,age:Int)

val example = spark.read.json("/data/result.json").as(StudentInfo)
example.show()

动态定义schema

在需要根据不同数据定义不同schema

val schemaInfo = "name age"
val fields = schemaInfo.map(item=> item.split(" ")
     .map(item=>StructField(item,StringType,nullable=true))
val schema = StructType(fields)

val rowRDD = peopleRDD.map(_.split(" ").map(attributes=>Row(attributes(0),attributes(1))

val peopleDF = spark.createDataFrame(rowRDD,schema)

peopleDF.show()

Spark 2.3.1 on YARN

spark-submit 限制参数未生效

因为在spark-submit时配置的executor-memory 2g等没有生效,后来问同事说他也碰到这样的问题,解决方案就是动态的分配executor,官方文档,中文文档

--conf spark.yarn.maxAppAttempts=1 --conf spark.dynamicAllocation.minExecutors=2 --conf spark.dynamicAllocation.maxExecutors=4 --conf spark.dynamicAllocation.initialExecutors=4
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值