
大数据
文章平均质量分 84
Flink、Hadoop总结
墨痕诉清风
始于情,行于心。
展开
-
Python 编写 Flink 应用程序经验记录(Flink1.17.1)
通过 flink run 即可运行应用程序,由于 flink 既可运行 Java 程序、也可以运行 Python 程序,所以这里我们需要指定 -py 参数,表示运行的是 py 文件。但毕竟 Flink 的内核是采用 Java 语言编写的,如果 Python 应用程序变成 JobGraph 对象被提交到 Flink 集群上运行的话,那么 Python 虚拟机和 Java 虚拟机之间一定有某种方式,使得 Python 可以直接动态访问 Java 中的对象、Java 也可以回调 Python 中的对象。原创 2023-10-26 17:41:26 · 2208 阅读 · 0 评论 -
pyflink读取kafka数据写入mysql实例
【代码】pyflink读取kafka数据写入mysql实例。原创 2023-10-09 14:15:57 · 1389 阅读 · 1 评论 -
Hadoop、Spark、Storm、Flink区别及选择
上述四个组件的实时性高低顺序如下:hadoop < spark < storm < flinkhdfs是hadoop的文件存储系统,存储csv/txt等各种格式的文件,但是对于hive和hbases就比较陌生,今天顺便一起看了一下这二者的区别和适用场景。1. 数据时效性不同:流式计算具有实时、低延迟等特点;批量计算则是非实时、高延迟的。2. 数据特征不同:流式计算的数据一般是动态的、没有边界的,数据像水流一样源源不断、你不知道什么时候会结束;而批量计算的数据则是静态的,每次处理的数据量是已知的。3. 应用场原创 2023-09-26 16:28:00 · 3078 阅读 · 0 评论 -
Flink安装及简单使用
在Flink Standalone模式下,实现HA的方式可以利用ZooKeeper在所有正在运行的JobManager实例之间进行分布式协调,实现多个JobManager无缝切换。Flink Standalone模式的HA架构如图:HA的核心就是:可以在集群中启动多个JobManager,并使它们都向ZooKeeper进行注册,ZooKeeper利用自身的选举机制保证同一时间只有一个JobManager是活动状态(Active)的,其他的都是备用状态(Standby)。原创 2023-09-26 11:42:28 · 1147 阅读 · 0 评论 -
Hadoop初识及信息安全(大数据的分布式存储和计算平台)
Hadoop 是一个适合大数据的分布式存储和计算平台。Hadoop的广义和狭义区分:狭义的Hadoop:指的是一个框架,Hadoop是由三部分组成HDFS:分布式文件系统--》存储;MapReduce:分布式离线计算框架--》计算;Yarn:资源调度框架。广义的Hadoop:广义Hadoop是不仅仅包含Hadoop框架,除了Hadoop框架之外还有一些辅助框架。Flume:日志数据采集,Sqoop:关系型数据库数据的采集;原创 2023-09-21 18:14:18 · 660 阅读 · 0 评论 -
Flink介绍
Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序。它的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上,还支持在裸机集群上独立部署。在启用高可用选项的情况下,它不存在单点失效原创 2022-06-25 10:35:36 · 1360 阅读 · 0 评论