大数据
文章平均质量分 72
ShyGlow
这个作者很懒,什么都没留下…
展开
-
Flink 如何处理离线数据关联(例如和离线数据的关联)
在asyncInvoke方法中,我们通过订单中的productId从缓存中获取对应的产品信息,并将产品名称关联到订单数据中。在processElement方法中,我们通过订单的productId从状态中获取离线数据,并将其关联到订单中。这些案例展示了在Flink中处理离线数据关联的不同方法,您可以根据实际情况选择最适合您的场景的方法,并根据需求进行相应的调优和扩展。步骤1:在任务的Open方法中读取离线的产品信息,并将其存储在本地状态中。步骤3:将关联后的订单流进行后续处理,例如计算、过滤或输出等操作。原创 2023-06-29 09:49:25 · 731 阅读 · 0 评论 -
Flink的流处理与批处理的融合
Flink的流处理与批处理的融合使得用户可以使用统一的编程模型和API来处理无界流和有界数据集。通过将批处理作业转换为流处理作业,并应用批处理优化策略,Flink实现了高效和灵活的数据处理和计算能力。原创 2023-06-02 10:50:14 · 483 阅读 · 0 评论 -
Flink的窗口操作和时间处理
Flink作为一个流处理框架,提供了强大的窗口操作和时间处理功能,能够对无限数据流进行有限范围的计算和聚合。本篇博客将介绍Flink的窗口操作和时间处理的概念和用法。原创 2023-06-07 18:00:00 · 477 阅读 · 0 评论 -
Flink的容错机制
Flink的容错机制是保证数据处理正确性和一致性的关键组成部分。通过配置检查点、选择适当的容错语义和状态后端,以及灵活的容错策略,Flink能够在发生故障时保证流处理的可靠性和高可用性。在下一篇博客中,我们将讨论Flink的窗口操作和时间处理,敬请关注!原创 2023-06-07 09:00:00 · 265 阅读 · 0 评论 -
Flink的状态管理
状态是指在流处理过程中需要保持的数据,它可以是中间计算结果、窗口聚合结果或用户自定义的状态信息。键控状态(Keyed State):根据流数据的键值对进行管理的状态,每个键对应一个状态。操作符状态(Operator State):与算子相关的状态,不依赖于键值对,通常用于维护全局的中间结果。列表状态(List State):维护一组元素的状态,可以添加、删除和更新列表中的元素。联合列表状态(Union List State):用于将多个列表状态合并为一个列表状态。原创 2023-06-02 10:34:55 · 346 阅读 · 0 评论 -
Flink的数据处理模型
Flink的数据处理模型基于流式计算,通过事件时间和处理时间对数据流进行处理。它提供了丰富的转换和计算操作符,支持窗口操作和状态管理,同时提供了容错性和一致性保证的机制。这使得Flink成为一个强大而灵活的数据处理框架,可用于实时分析、流式处理和批处理等场景。在下一篇博客中,我们将深入探讨Flink的窗口操作和状态管理机制。敬请关注!原创 2023-06-02 10:50:57 · 723 阅读 · 0 评论 -
CDP集群中的Flink:安装和配置
CDP(Cloudera Data Platform)是一种现代化的数据管理和分析平台,而Flink是CDP生态系统中的关键组件之一,用于实时流处理和批处理。在本系列博客中,我们将探讨Flink在CDP集群中的安装、配置和升级。在之前的博客中,我们已经介绍了Flink的简介和核心概念,包括流式处理框架、事件、作业、数据流、窗口、状态和检查点等。如果您还没有阅读相关内容,请参考博客1:Flink简介和核心概念。原创 2023-06-03 09:00:00 · 602 阅读 · 0 评论 -
Flink简介和核心概念
Apache Flink是一个分布式流处理和批处理框架,具有强大的容错性和低延迟的特性。它是一个开源项目,旨在处理大规模的实时和批量数据,并提供了灵活且易于使用的API和工具,以支持复杂的数据处理任务。本篇博客将为您介绍Flink的起源、其在实时数据处理和批处理中的优势,以及Flink的核心概念。Apache Flink是一个强大的分布式流处理和批处理框架,具有低延迟、容错性、高吞吐量和灵活的API等优势。理解Flink的起源和核心概念对于使用和开发Flink应用程序至关重要。原创 2023-06-02 08:57:16 · 745 阅读 · 0 评论 -
Hive优化-SQL调优
Hive优化-SQL调优此博客参考了其他博客:hivesql https://www.cnblogs.com/fnlingnzb-learner/p/13087976.html后续还会继续更新和优化优化的根本思想:尽早尽量过滤数据,减少每个阶段的数据量减少job数解决数据倾斜问题尽早尽量过滤数据,减少每个阶段的数据量列裁剪例如某表有a,b,c,d,e五个字段,但是我们只需要a和b,那么请用select a,b from table 而不是select * from table原创 2021-08-05 17:25:44 · 306 阅读 · 0 评论 -
Hive优化-参数调优
Hive优化-参数调优 Hive通过将查询划分成一个或多个MapReduce任务达到并行处理的目的。每个任务都可能具有多个mapper和reducer任务,其中至少有一些是可以并行执行的。确定最佳的mapper个数和reducer个数取决于多个变量,例如输入的数据量大小以及对这些数据执行的操作类型等。启用本地模式对于数据量比较小的操作,可以使用本地模式提交任务。因为在这种情况下,集群执行的话为查询发出执行任务的时间消耗可能会比实际job的执行执行时间要多的多#默认是falsehive>原创 2021-08-05 17:21:24 · 296 阅读 · 0 评论 -
Hive导出MySQL中文乱码问题
Hive导出MySQL中文乱码问题刚开始是认为是Hive和MySQL建表的字符集不匹配修改MySQL的字符编码:alter database xxx character set utf8;alter table xxx character set utf8;修改Hive的字符编码;alter database xxx character set utf8;alter table xxx set serdeproperties('serialization.encoding'='utf8原创 2021-08-05 17:18:20 · 884 阅读 · 0 评论 -
Spark算子
简介Spark 算子大致可以分为以下两类:Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。Action 算子会触发 Spark 提交作业(Job),并将数据输出 Spark系统。原创 2020-07-01 11:02:47 · 4438 阅读 · 0 评论 -
十大排序算法
十大排序算法冒泡排序算法描述:比较相邻的元素。如果第一个比第二个大,就交换数据。对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对。这步做完后,最后的元素会是最大的数。针对所有的元素重复以上的步骤,除了最后一个。持续每次对越来越少的元素重复上面的步骤,直到没有任何一对数字需要比较。动图演示:Java代码:public class BubbleSort impl...转载 2019-12-09 10:59:51 · 133 阅读 · 0 评论