Spark项目问题记录

项目:analysys-etl

Java模块

1、Base64问题

import org.apache.commons.codec.binary.Base64;这个包 版本之间存在问题。

替换为import org.apache.commons.net.util.Base64;

2、@data在idea中利用lombok插件,maven编译不通过(未解决)

直接生成get、set方法

3、Java和Android不能采用相同方法加密

不用语言编码不同

Scala模块

1、Scala调用Java方法,集合转化

需要额外的import scala.collection.JavaConversions._

2、load HDFS数据到hive

  • 需要将hive-site.xml这个文件拷贝到resource下

  • val spark = SparkSession.builder().master("local[2]").appName("HiveJoinMySql").enableHiveSupport().getOrCreate()

  • sparkSession.sql("load data inpath '" + sourcePath + "' overwrite into table stg." + table_name + " partition(day='" + pro_date + "',source='" + topic_id + "')")

  • 不要利用Spark的算子,执行load单机操作,采用Scala自身的方法即可

3、Spark对于集合包含对象的数据List<Table(String,String)>的处理

利用flatMap抹平

4、reduceByKey为Translation算子且注意数据类型

5、尽量减少Mysql链接的创建

6、Spark日志等级的设置

sparkContext.setLogLevel("DEBUG")

7、Spark累加器的使用(不推荐使用,因为任务如果发生重试,累加器会继续累加。可以直接使用count)

val accum_input = context.sparkContext.longAccumulator("Input Row Accumulator")

8、Spark处理.gz文件

如果处理.gz文件过大,由于.gz文件不能spilt,导致并行度不能调优,那么将会发生各种异常。建议先将文件进行repartition处理,调整partition个数。repartition内部实现HashPartition,文件大小平均分布。虽然需要进行一定时间的shuff,但可以提高并行度,而且解决了数据源的数据倾斜问题。partition的大小要小于2GB,不然可能会有 java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE 2GB 等异常。

9、Scala中java代码的调用

获取java方法的返回值后需要进行去空(.filter(_ != null))的处理

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于Spark项目案例有很多,下面是一个示例: 假设有一家电子商务公司,想要对其用户数据进行分析以改善用户体验和提高销售额。为了实现这个目标,他们决定使用Spark进行大规模数据处理和分析。 首先,他们搭建了一个Spark集群,用于处理和存储大量的用户数据。他们使用Spark的分布式计算框架,将用户数据导入Hadoop分布式文件系统(HDFS)中,以便能够快速访问和处理大量数据。 然后,他们利用Spark的强大的数据处理能力进行数据清洗和预处理。他们使用Spark的DataFrame API来清理和转换数据,例如去除缺失值、处理重复记录和转换数据类型。通过这些预处理步骤,他们获得了干净且一致的数据集。 接下来,他们使用Spark的机器学习库(MLlib)来构建用户推荐模型。他们利用Spark的分布式机器学习算法,从用户的购买历史、浏览行为和其他相关特征中提取特征,并训练一个推荐模型。通过这个模型,他们可以为每个用户生成个性化的推荐产品列表,从而提高用户满意度和销售额。 此外,他们还使用Spark Streaming进行实时数据处理和分析。他们从网站的服务器日志中提取用户行为数据,并即时处理分析。通过这种实时分析,他们可以更加及时地做出调整和改进,以满足用户需求。 最后,他们使用Spark的可视化工具(如Spark SQL和SparkR)来探索和可视化数据结果。他们可以通过这些工具来执行各种数据查询和数据可视化操作,以帮助他们更好地理解用户行为和销售趋势。 通过基于Spark项目,这家电子商务公司能够利用大数据分析来提升用户体验和销售额。Spark的强大的数据处理和分析能力为他们提供了一个高效、可扩展和灵活的解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值