自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 flink怎么把实时流封装成广播变量并使用

这个示例展示了如何实现定时读取 MySQL 中的维度表数据并封装成广播变量,然后在 Flink 流处理任务中将主数据流的 JSON 中的车架号与广播变量进行匹配,并将车型代码封装到主数据流的 JSON 中输出。在实际应用中,根据实际的数据格式和业务逻辑进行相应的调整。2.合并到主流中,主流是一个json,主流获取到广播变量,通过自己的车架号匹配到广播变量的车架号。1.flink实现每5分钟读取一次mysql维度表数据,然后把数据封装成广播变量,数据是一个map结构,key车架号,value为车型代码。

2023-12-22 17:42:14 497

原创 scala循环的写法有哪些

这些写法提供了更多的灵活性和功能性,让您能够根据需要更精准地控制循环的行为。Scala 是一门功能丰富、灵活的语言,它提供了多种方式来进行迭代和循环操作,您可以根据代码的清晰度、可读性和逻辑需求选择合适的写法。除了上述提到的常见循环方式外,Scala 还提供了其他一些不太常见的写法或语法糖,让您在编写循环时有更多的选择。

2023-12-21 15:12:30 695

原创 mysql有哪些数据类型

MySQL 提供了多种数据类型,用于存储各种类型的数据。

2023-12-21 14:42:30 402

原创 结合案例详细说明Spark的部分调优手段

当谈到优化 Apache Spark 应用程序时,有一些更加详细和具体的优化策略和技术,可以帮助提高性能并最大化集群资源利用。coalescecachepersistbucketBy这些优化方法需要结合具体的应用场景和需求来实施。根据数据特点、集群配置和任务类型,综合使用这些方法可以显著提高 Spark 应用程序的性能和效率。

2023-12-21 12:44:48 1023

原创 spark中怎么实现行列转换

函数可以帮助你重新排列数据,将某些行值作为列,并根据指定的聚合函数对这些值进行汇总。函数可用于将包含数组的列拆分成多行,每个数组元素对应一行数据。列中的数组元素拆分成多行,每个员工的每个部门对应一行,并保留了原始的。列的值(A 和 B)转换为两列,并对每个日期的。在 Spark SQL 中,你可以使用。在 Spark SQL 中,你可以使用。列中的值转换为行,并保留对应的。进行分组,并且对应每个日期的。假设你有一个包含以下数据的表。列中的值转换为列,可以按照。假设你有一个包含以下数据的表。

2023-12-21 12:29:06 1297

原创 深入了解spark中RDD的本质和源码

在Apache Spark中,RDD(Resilient Distributed Dataset,弹性分布式数据集)是其核心概念之一。RDD 是对分布式数据集的抽象表示,它代表了可分区、可并行操作的数据集合。

2023-12-21 12:12:57 875

原创 spark中DataFrame的本质是什么

当谈论Apache Spark中的DataFrame时,我们需要了解它是什么、它的本质是什么以及它为什么在大数据处理中如此重要。DataFrame是什么?DataFrame是Spark SQL提供的一种抽象概念,它是以分布式数据集合为基础构建的高级API。DataFrame可以被视为一种类似于关系型数据库表格的结构化数据形式。它是在Spark的基础数据结构RDD(Resilient Distributed Dataset)之上构建的,但与RDD不同,DataFrame具有schema(模式),这意味

2023-12-19 16:19:11 817

原创 spark计算一个数组的概率密度

接着,创建了一个示例数据的 DataFrame,并将 UDF 应用到 DataFrame 中的数组列上,计算每个数组的概率密度函数值。最后展示了结果,每个数组对应的概率密度函数值数组被添加为新的列。类型的参数,并返回一个数组,数组中每个元素是对应位置元素的概率密度值。在 UDF 内部,首先计算了数组的均值和标准差,然后使用这些值来初始化一个正态分布,并计算每个元素的概率密度值。这段代码中,首先定义了一个名为。

2023-12-19 15:39:38 679

原创 使用spark计算一个二维数组中每一列的最大值

有一组数据类型为Array[Array[Float]]的数据,代表的是n*m的矩阵,求每一列的最大值

2023-12-19 15:36:51 430

原创 如何使用spark把数组转换成向量

转换为一个包含一列的 DataFrame,并使用定义的 UDF 将数组列转换为向量列。类型,可以编写一个自定义的 Spark UDF 来完成这个转换。sparkUDF入参是Array[Float]类型,转换为 Spark 中的。这个UDF接受类型为。这段代码首先定义了一个名为。的输入参数,并将其转换为。方法展示转换后的结果。

2023-12-19 15:33:24 364

原创 azkaban短信报警功能和项目依赖功能实现

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档前言目前,调度工具中,使用最多的就是oozie和azkaban,但是,这两个工具都没有项目依赖功能和短信报警功能,我们公司一直在使用azkaban,但是原生的azkaban只有邮件报警功能,收到邮件报警对于我们来说,并不能很快速的响应到相关开发人员。并且我们项目之间需要有依赖,例如:A项目是一个定时抽取数据的任务,B任务是计算任务,但是B任务必须在A任务完成过后才能做计算。这就是一个简单的项目依赖场景。针对以上场景,我花了两周时间.

2020-09-03 16:46:16 1293 3

dbeaver安装包+该软件的hive驱动包

dbeaver安装包+该软件的hive驱动包,用于连接hive、mysql等数据库

2023-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除