计算引擎
文章平均质量分 88
分享大数据使用到相关的计算引擎知识文章。eg:Spark、Flink
Impl_Sunny
这个作者很懒,什么都没留下…
展开
-
Flink⼤状态作业调优实践指南:Datastream 作业篇
Apache Flink 是一个开源的流处理框架,用于处理和分析实时数据流。在 Flink 中,状态管理是流处理应用的核心概念之一,它允许算子(operators)在处理事件时保持和操作状态信息。在 Flink 中,状态可以被视为算子的“记忆”,它使得算子能够在处理无界流数据时保持对历史数据的跟踪。状态可以是简单的键值对,也可以是更复杂的数据结构,如列表、集合或自定义对象。状态的更新和查询对于实现复杂的流处理逻辑至关重要。具体说来,首先,Checkpoint 是 Flink 的一种容错机制。转载 2024-06-04 12:16:41 · 41 阅读 · 0 评论 -
Spark执行计划explain使用
这一部分,是加入了catalog验证表名和列名之后的执行计划,和上一部分的很像,但增加了表的相关信息,#号代表列的序号,L代表长整型整数。根据这些,我们可以看出,物理执行计划会去寻找表所在的文件位置,取出所需要的列,规约(预聚合),广播,join的方式,聚合的列等等信息。这一部分,是优化后的逻辑执行计划,加入了判断空值、自动过滤等功能,优化了逻辑执行过程。3.优化后的逻辑执行计划:== Optimized Logical Plan ==4.物理执行计划:== Physical Plan ==转载 2023-01-06 10:50:34 · 676 阅读 · 0 评论 -
Spark Executor端日志打印的方法
大数据平台采用yarn client模式提交spark 任务,并且多个离线Spark作业共用一个Driver,好处便在于——节省提交任务的时间。但同时也加大了运维工作的难度,因为任务日志打印到同一个文件中。为了区分开各个业务流程的日志,平台引入了log4j2 RoutingAppender,配置如下所示:最近数据开发部门在使用大数据平台的二次开发算子时,反馈说平台提供的Logger对象打印不出日志,抱着好奇的心态,研究了一下平台使用的日志框架。其实平台提供的Logger对象打印在executor端打印原创 2022-10-19 10:33:17 · 3262 阅读 · 0 评论 -
【Spark】Spark SQL 字段血缘如何实现
字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢?有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。Spark SQL 相对于 Hive 来说通常情况下效率会比较高,对于运行时间、资源的使用上面等都会有较大的收益。平台计划将 Hive 任务迁移到 Spark SQL 上,同时也需要实现字段血缘的功能。Hive的数据血缘直接Atlas支持,Spark的字段血缘如何实现呢?Spark 是支持扩展的:允许用户对 Spark SQL原创 2022-06-22 10:23:57 · 2134 阅读 · 1 评论 -
【Spark】Spark常见错误问题汇总(~持续更新)
一、SparkSQL相关1.在执行insert 语句时报错,堆栈信息为:FileSystem closed。常常出现在ThriftServer里面。原因:由于hadoop FileSystem.get 获得的FileSystem会从缓存加载,如果多线程一个线程closedFileSystem会导致该BUG 解决:hdfs存在不从缓存加载的解决方式,在hdfs-site.xml 配置 fs.hdfs.impl.disable.cache=true即可2.在执行Spark过程中抛出:Failed t原创 2021-10-09 14:33:45 · 6397 阅读 · 1 评论 -
【Hive】Hive实现数据抽样的三种方法
0、前言在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样(SAMPLING)的功能,能够根据一定的规则进行数据抽样,目前支持数据块抽样,分桶抽样和随机抽样,具体如下所示:数据块抽样、分桶抽样、随机抽样一、数据块抽样(tablesample()函数)...原创 2021-10-07 09:51:30 · 857 阅读 · 0 评论