Spark项目问题记录

项目:analysys-etl

Java模块

1、Base64问题

import org.apache.commons.codec.binary.Base64;这个包 版本之间存在问题。

替换为import org.apache.commons.net.util.Base64;

2、@data在idea中利用lombok插件,maven编译不通过(未解决)

直接生成get、set方法

3、Java和Android不能采用相同方法加密

不用语言编码不同

Scala模块

1、Scala调用Java方法,集合转化

需要额外的import scala.collection.JavaConversions._

2、load HDFS数据到hive

  • 需要将hive-site.xml这个文件拷贝到resource下

  • val spark = SparkSession.builder().master("local[2]").appName("HiveJoinMySql").enableHiveSupport().getOrCreate()

  • sparkSession.sql("load data inpath '" + sourcePath + "' overwrite into table stg." + table_name + " partition(day='" + pro_date + "',source='" + topic_id + "')")

  • 不要利用Spark的算子,执行load单机操作,采用Scala自身的方法即可

3、Spark对于集合包含对象的数据List<Table(String,String)>的处理

利用flatMap抹平

4、reduceByKey为Translation算子且注意数据类型

5、尽量减少Mysql链接的创建

6、Spark日志等级的设置

sparkContext.setLogLevel("DEBUG")

7、Spark累加器的使用(不推荐使用,因为任务如果发生重试,累加器会继续累加。可以直接使用count)

val accum_input = context.sparkContext.longAccumulator("Input Row Accumulator")

8、Spark处理.gz文件

如果处理.gz文件过大,由于.gz文件不能spilt,导致并行度不能调优,那么将会发生各种异常。建议先将文件进行repartition处理,调整partition个数。repartition内部实现HashPartition,文件大小平均分布。虽然需要进行一定时间的shuff,但可以提高并行度,而且解决了数据源的数据倾斜问题。partition的大小要小于2GB,不然可能会有 java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE 2GB 等异常。

9、Scala中java代码的调用

获取java方法的返回值后需要进行去空(.filter(_ != null))的处理

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值