大数据侠客
这个作者很懒,什么都没留下…
展开
-
Spark性能调优
1、前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进原创 2024-03-08 10:27:01 · 56 阅读 · 0 评论 -
Spark面试问题总结
在Spark中有两类task,一类是shuffleMapTask,一类是resultTask,第一类task的输出是shuffle所需数据,第二类task的输出是result,stage的划分也以此为依据,shuffle之前的所有变换是一个stage,shuffle之后的操作是另一个stage。但是这里必须要注意的是,在实际的生产环境中,恐怕能够直接用这种策略的场景还是有限的,如果RDD中数据比较多时(比如几十亿),直接用这种持久化级别,会导致JVM的OOM内存溢出异常。如果提交失败了,它将会重试;原创 2024-03-07 11:44:52 · 346 阅读 · 0 评论 -
本地使用scala操作spark示例
1, 保证dataframe中有分区字段(SparkSession中必须添加配置: “spark.sql.sources.partitionOverwriteMode”, “dynamic”, 否则执行insertInto时会把对应hive表中全部分区删除, 只留本次插入数据的分区!:使用saveAsTable 造成覆盖所有数据,不是按照分区覆盖数据,需要使用insertInto。2, 使用insertInto插入对应表;原创 2024-03-07 10:03:57 · 47 阅读 · 0 评论 -
Spark集成Iceberg
Iceberg原创 2024-03-06 14:14:47 · 136 阅读 · 0 评论 -
Spark不能使用Hive自定义函数
在pyspark中 使用sparksql执行sql语句时,发现自定义udf函数不能使用。原创 2024-03-06 13:53:35 · 80 阅读 · 0 评论 -
PySpark中相关问题报错总结
pyspark 调用DataFrame.show()进行数据展示,展示的数据存在中文,会报UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 284-285: ordinal not in range(128)原创 2024-03-05 09:36:51 · 68 阅读 · 0 评论 -
Spark Sql中时间字段少8个小时问题解决
在pyspark中加配置:.config(“spark.sql.session.timeZone”,“UTC+8”);源表:test.app_exhibition_test_timestamp1。2.UTC+8: 东八区时间。在hive中,会话时区的默认值是UTC时区。原创 2024-02-28 14:51:00 · 284 阅读 · 0 评论