![](https://img-blog.csdnimg.cn/20200105212530309.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据处理分析专栏
文章平均质量分 79
Hadoop、Spark、Flink三代大数据处理方案,涵盖基础概念、架构、源码剖析等,做专业技术专栏,做有灵魂的大数据传播者,欢迎大家关注订阅 jiangzz_wy微信公众账号,关注更多精彩内容。
麦田里的守望者·
相信相信的力量
展开
-
Apache Flink 流处理-[CentOS|Rocky] 镜像
Flink Docker Rocky&CentOS8 镜像制作原创 2024-04-25 17:23:58 · 440 阅读 · 4 评论 -
Spark SQL 血缘解析方案
瞬间是不是感觉清晰了,可以完美的拿到表和表以及字段和字段的关系,甚至在加工点场景,可以吧字段的加工表达式可以给生成出来.这里需要注意原生的json文件太大,在发送到kafka中对存储和带宽都有压力,最后注意:血缘的解析处理,放在该agent端, 否则kafka的压力会很大,因为单条消息生产环境下会很大可能有10多mb都有可能。目前这个是最简单的,如果没有特殊的需求,可以直接对Apache Atlas中的hive hook进行裁剪,最终可以得到业务所需的血缘采集插件,一般可以到字段级别血缘。原创 2024-06-22 16:58:41 · 801 阅读 · 0 评论 -
Flink Rest Basic Auth - 安全认证
背景公司目前需要将Flink实时作业云化,构建多租户实时计算平台。目前考虑为了资源高效利用,并不打算为每个租户部署一套独立的Kubernetes集群。也就意味着多个租户的作业可能会运行在同一套kubernets集群中。此时实时作业的任务就变的很危险,因为网络可能是通的,就会存在危险的REST API暴露出去,被一些不坏好意的人利用,从而影响其他租户的作业。鉴于此考虑给Flink的作业添加一个认证方式,可以是Kerberos或者是Http 用户名密码Baisc认证。各种搜索和询问,最终发现了一些线索FLIP原创 2024-06-04 15:46:06 · 689 阅读 · 1 评论 -
Kafka SASL_SSL集群认证
公司需要对kafka环境进行安全验证,目前考虑到的方案有Kerberos和SSL和SASL_SSL,最终考虑到安全和功能的丰富度,我们最终选择了SASL_SSL方案。到此为止,SSL的证书生成和签发完成,可以在当前目录下看到server.keystore.jks和server.truststore.jks文件,最后将这些签发的证书上传到剩下的两台kafka机器上的。证书的生成只需要在任意一台机器上实现,然后将生成的证书拷贝到其余的机器上即可。本次案例生成的在141这台机器上。1)生成keystore。原创 2024-05-23 13:21:33 · 1457 阅读 · 0 评论 -
kafka Kerberos集群环境部署验证
修改完成后,重复上述步骤,分别完成citicbank-bdp-1a-04 / citicbank-bdp-1a-05主机上的keytab文件生成,重启kafka服务即可。注意:需要给每个机器生成单独的keytab文件,然后将生成的文件拷贝到对应的kafka服务节点的/export/server/文件夹子下。然后将该主机/root/kafka.keytab文件拷贝到citicbank-bdp-1a-03主机的/export/server/目录下。例如:citicbank-bdp-1a-03主机。原创 2024-05-23 10:50:22 · 452 阅读 · 0 评论 -
Flink Kylinv10 java8 Flink镜像制作
基于麒麟v10版本制作JDK8 Flink镜像原创 2024-05-21 13:45:07 · 310 阅读 · 0 评论 -
Flink Operator 使用指南 之 全局配置
Flink Operator全局配置原创 2023-11-20 21:01:42 · 979 阅读 · 0 评论 -
Flink Operator 使用指南 之 Flink Operator安装
Flink Operator实战基础篇原创 2023-11-20 18:30:00 · 840 阅读 · 0 评论 -
Kafka安全认证-Kerberos&SCRAM
配置SASL/PLAIN验证,实现了对Kafka的权限控制。但SASL/PLAIN验证有一个问题:只能在JAAS文件KafkaServer中配置用户,一但Kafka启动,无法动态新增用户。SASL/SCRAM验证可以动态新增用户并分配权限安装步骤.原创 2023-02-26 20:20:12 · 785 阅读 · 0 评论 -
Apache Hadoop VIP版
Apache Hadoop## 背景随着信息化互联网|物联网发展要求,万物互联趋势势在必行。随之引发架构的演变由单一架构向高并发分布式架构演变。数据的存储也开始由原始的单机存储演变为分布式存储。JavaWeb:为了应对高并发和分布式提出的是LNMP :(Linux、Nginx、MySQL、PHP )思想。海量数据存储|数据分析 :存储方案(HDFS)、计算方案(Map Reduce、Storm、Spark、Flink)大数据背景分布式:服务间出现跨机器、跨进程通信同一称为分布式存储原创 2020-10-13 14:29:43 · 354 阅读 · 1 评论 -
AzKaban 任务调度管理
https://www.liangzl.com/get-article-detail-10093.html(介绍&安装)https://www.liangzl.com/get-article-detail-10314.html(使用技巧)https://blog.csdn.net/weixin_40434214/article/details/97140612(任务一直preparin...原创 2019-11-28 13:48:24 · 321 阅读 · 0 评论 -
Apache Flink之架构概述和环境(章节一)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 百知教育背景介绍继Spark之后第三代内存计算框架Flink应运而生,Flink作为第三代计算框架Flink吸取了二代大数据Spark计算的设计的精华,依然采用DAG模型做任务拆分,但是Spark在流处理领域上因为微观批处理实时性不高甚至在性能上还不能和一代流处理框架Storm匹...原创 2019-04-26 11:34:09 · 1159 阅读 · 0 评论 -
Apache Flink DataStream API之程序结构分析&DataSource(章节二)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wyApacheFlink® - 是针对于数据流的状态计算,Flink具有特殊类DataSet和DataStream来表示程序中的数据。您可以将它们视为可以包含重复项的不可变数据集合。在DataSet的情况下,数据是有限的,而对于DataStream,元素的数量可以是无限的。这些集合在...原创 2019-04-26 23:47:12 · 501 阅读 · 0 评论 -
Apache Spark之架构概述(章节一)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy背景介绍Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG 任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交...原创 2019-04-22 14:32:07 · 1236 阅读 · 0 评论 -
Apache Spark之RDD详解 (章节二)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wyRDD概述Spark计算中一个重要的概念就是可以跨越多个节点的可伸缩分布式数据集 RDD(resilient distributeddataset) Spark的内存计算的核心就是RDD的并行计算。RDD可以理解是一个弹性的,分布式、不可变的、带有分区的数据集合,所谓的Spark...原创 2019-04-23 15:06:59 · 663 阅读 · 0 评论 -
Apache Spark之RDD算子分析(章节三)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wyRDD 转换算子map将父类RDD的元素以此转换成新的RDD元素scala> sc.parallelize(List(1,2,3,4,5),3).map(item=>item+2).collect()flatMap将集合的元素展开,并转换scala>...原创 2019-04-23 18:19:42 · 589 阅读 · 0 评论 -
Apache Spark Streaming (章节四)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wySpark StreamingSpark Streaming是核心Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取,并且可以使用以高级函数(如map,reduce,join和...原创 2019-04-24 19:34:50 · 503 阅读 · 0 评论 -
Apache Spark之DStream算子(章节五)
DStreams 转换算子与RDD类似,转换允许修改来自输入DStream的数据。 DStreams支持普通Spark RDD上可用的许多转换。一些常见的如下。TransformationMeaningmap(func)Return a new DStream by passing each element of the source DStream through a ...原创 2019-04-25 15:09:15 · 735 阅读 · 0 评论 -
Apache Hadoop
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 百知教育大数据(Big Data)随着信息化互联网|物联网发展要求,万物互联趋势势在必行。随之引发架构的演变由单一架构向高并发分布式架构演变。数据的存储也开始由原始的单机存储演变为分布式存储。高并发互联网设计 LNMP、数据库主从RDBMS|NoSQL、Spring Clo...原创 2019-04-17 15:16:44 · 1607 阅读 · 0 评论 -
Apache Hbase
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 百知教育Hbase概述Hbase是一个基于Hadoop之上的数据库服务,该数据库是一个分布式、可扩展的大的数据仓库。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™(HDFS虽然可以存储海量数据,但是对数据的管理粒度比较粗糙,只支持对文件的上传下载,...原创 2019-04-17 17:50:05 · 1456 阅读 · 0 评论 -
Apache Kafka 消息队列
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 百知教育Apache Kafka概述Kafka是Apache软件基金会的开源的流处理平台,该平台提供了消息的订阅与发布,能够基于Kafka实现对网络日志流实时在线处理,在这个维度上弥补了Hadoop的离线分析系统的不足。因为基于hadoop的MapReduce系统分析离线数据延...原创 2019-04-17 15:21:47 · 1002 阅读 · 1 评论 -
Scala Language Programing Guide(章节一)
Scala编程指南Scala Language Programing Guide介绍环境配置变量变量声明数值转换数组元组分支循环条件分支while/do-whileBreakfor循环数组遍历数组计算模式匹配数值匹配类型匹配函数函数声明标准函数可变长参数参数默认值参数命名内嵌函数柯里化(Currying)匿名函数Class & object单例类类伴生对象抽象类Trait(接口)继承&am...原创 2019-04-17 12:04:45 · 438 阅读 · 0 评论 -
Scala Language Programing Guide(章节二)
Scala Language Programing Guide作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 百知教育变量Scala语言中没有原始数据类型,这一点和Java语言不同,在Scala中一切且对象。以下是Scala语言中常见类型和类型间的继承关系。在Java中常见的基本类型在Scala中都被剔除了,Scala将...原创 2019-04-17 13:11:10 · 545 阅读 · 0 评论 -
Scala Language Programing Guide(章节三)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 百知教育Class & object由于Scala没有静态方法和静态类,通过object去定义静态方法或者静态对象。当object和Class放在一个文件中时候称该object为当前Class的伴生对象。单例类单例类使用object修饰,所有声明在object中的方法...原创 2019-04-17 13:16:24 · 470 阅读 · 0 评论 -
Scala Language Programing Guide(章节四)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 百知教育可见性Scala 中的默认可见性为 public,所谓默认即你没有在类或者成员前显示加 private 或 protected 可见性关键字。虽然默认可见性为 public,但这是逻辑上的,实际上 Scala 中并没有 public 这个关键字,如果你用 public 来...原创 2019-04-17 13:18:36 · 335 阅读 · 0 评论 -
Scala Language Programing Guide(章节五)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 百知教育函数对象在Java1.8中提出了一个Functional Interface,如果一个接口里面只能有一个抽象方法。这种类型的接口也称为SAM接口,即Single Abstract Method interfaces。将该接口成为函数式接口。@FunctionalInte...原创 2019-04-17 13:21:11 · 348 阅读 · 0 评论 -
Scala Language Programing Guide(章节六)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 百知教育异常处理Scala 的异常处理和其它语言比如 Java 类似。Scala 的方法可以通过抛出异常的方法的方式来终止相关代码的运行,不必通过返回值。Scala 抛出异常的方法和 Java一样,使用 throw 方法,例如,抛出一个新的参数异常:throw new Ille...原创 2019-04-17 13:23:17 · 398 阅读 · 0 评论 -
Scala Language Programing Guide(章节七)
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 百知教育集合/数组(重点)ArrayArray在Scala中指的是数组,创建方式如下所示,可以看出分配大小为10,每个元素都分配了默认值。scala> var array=new Array[Int](10)array: Array[Int] = Array(0, 0...原创 2019-04-17 13:26:55 · 673 阅读 · 1 评论