强哥玩转大数据-CSDN博客

原创 flink怎么把实时流封装成广播变量并使用

这个示例展示了如何实现定时读取 MySQL 中的维度表数据并封装成广播变量，然后在 Flink 流处理任务中将主数据流的 JSON 中的车架号与广播变量进行匹配，并将车型代码封装到主数据流的 JSON 中输出。在实际应用中，根据实际的数据格式和业务逻辑进行相应的调整。2.合并到主流中，主流是一个json，主流获取到广播变量，通过自己的车架号匹配到广播变量的车架号。1.flink实现每5分钟读取一次mysql维度表数据，然后把数据封装成广播变量，数据是一个map结构，key车架号，value为车型代码。

2023-12-22 17:42:14 498

原创 scala循环的写法有哪些

这些写法提供了更多的灵活性和功能性，让您能够根据需要更精准地控制循环的行为。Scala 是一门功能丰富、灵活的语言，它提供了多种方式来进行迭代和循环操作，您可以根据代码的清晰度、可读性和逻辑需求选择合适的写法。除了上述提到的常见循环方式外，Scala 还提供了其他一些不太常见的写法或语法糖，让您在编写循环时有更多的选择。

2023-12-21 15:12:30 698

原创 mysql有哪些数据类型

MySQL 提供了多种数据类型，用于存储各种类型的数据。

2023-12-21 14:42:30 402

原创结合案例详细说明Spark的部分调优手段

当谈到优化 Apache Spark 应用程序时，有一些更加详细和具体的优化策略和技术，可以帮助提高性能并最大化集群资源利用。coalescecachepersistbucketBy这些优化方法需要结合具体的应用场景和需求来实施。根据数据特点、集群配置和任务类型，综合使用这些方法可以显著提高 Spark 应用程序的性能和效率。

2023-12-21 12:44:48 1028

原创 spark中怎么实现行列转换

函数可以帮助你重新排列数据，将某些行值作为列，并根据指定的聚合函数对这些值进行汇总。函数可用于将包含数组的列拆分成多行，每个数组元素对应一行数据。列中的数组元素拆分成多行，每个员工的每个部门对应一行，并保留了原始的。列的值（A 和 B）转换为两列，并对每个日期的。在 Spark SQL 中，你可以使用。在 Spark SQL 中，你可以使用。列中的值转换为行，并保留对应的。进行分组，并且对应每个日期的。假设你有一个包含以下数据的表。列中的值转换为列，可以按照。假设你有一个包含以下数据的表。

2023-12-21 12:29:06 1316

原创深入了解spark中RDD的本质和源码

在Apache Spark中，RDD（Resilient Distributed Dataset，弹性分布式数据集）是其核心概念之一。RDD 是对分布式数据集的抽象表示，它代表了可分区、可并行操作的数据集合。

2023-12-21 12:12:57 876

原创 spark中DataFrame的本质是什么

当谈论Apache Spark中的DataFrame时，我们需要了解它是什么、它的本质是什么以及它为什么在大数据处理中如此重要。DataFrame是什么？DataFrame是Spark SQL提供的一种抽象概念，它是以分布式数据集合为基础构建的高级API。DataFrame可以被视为一种类似于关系型数据库表格的结构化数据形式。它是在Spark的基础数据结构RDD（Resilient Distributed Dataset）之上构建的，但与RDD不同，DataFrame具有schema（模式），这意味

2023-12-19 16:19:11 819

weixin_38290062的博客

原创 flink怎么把实时流封装成广播变量并使用

原创 scala循环的写法有哪些

原创 mysql有哪些数据类型

原创结合案例详细说明Spark的部分调优手段

原创 spark中怎么实现行列转换

原创深入了解spark中RDD的本质和源码

原创 spark中DataFrame的本质是什么

原创 spark计算一个数组的概率密度

原创使用spark计算一个二维数组中每一列的最大值

原创如何使用spark把数组转换成向量

原创 azkaban短信报警功能和项目依赖功能实现

dbeaver安装包+该软件的hive驱动包

空空如也