
大数据
文章平均质量分 95
长风清留扬
CSDN、51CTO、掘金、infoQ、华为云社区、支付宝社区、腾讯云社区、阿里云社区优质创作者,专注与大数据、Python、数据库方向,微信公众号:生产力充电站
展开
-
Kafka命令详解:从零开始,掌握Kafka集群管理、主题操作与监控的全方位技能,理解每一条命令背后的逻辑与最佳实践
Apache Kafka是一个开源的分布式消息系统,也是一个分布式流式计算平台。尽管它在流式计算方面有着强大功能,但在实际应用中,Kafka更多地被用作分布式消息队列。原创 2024-08-27 15:34:50 · 1447 阅读 · 0 评论 -
Kafka分布式集群部署实战:跨越理论,直击生产环境部署难题与解决方案,性能调优、监控与管理策略大揭秘,轻松上手分布式消息中间件
Apache Kafka是一个开源的分布式消息系统,也是一个分布式流式计算平台。尽管它在流式计算方面有着强大功能,但在实际应用中,Kafka更多地被用作分布式消息队列。原创 2024-08-27 14:16:14 · 1581 阅读 · 0 评论 -
精通Zookeeper:详解分布式集群部署全程,掌握数据一致性、选举机制与集群容错能力
Zookeeper是一个为分布式应用提供一致性服务的软件,是Google的Chubby一个开源的实现,也是Hadoop和Hbase的重要组件。它主要用来解决分布式集群中应用系统的一致性问题,提供的功能包括配置维护、域名服务、分布式同步、组服务等。原创 2024-08-26 23:49:41 · 975 阅读 · 0 评论 -
2024年最新Flink教程,从基础到就业,大家一起学习--Flink DataStream API-第一篇+源码讲解
DataStream API是Flink的核心层API。一个Flink程序,其实就是对DataStream的各种转换。具体来说,代码基本上都由以下几部分构成:上图就是Flink程序的基本构造,获取执行环境就是代码中env获取执行环境,然后需要有数据源来读取数据,读取完数据之后需要通过一些算子进行对数据的进一步操作,然后进行输出,最后需要使用Execute来执行程序。原创 2024-08-26 10:30:00 · 2231 阅读 · 0 评论 -
2024年最新Flink教程,从基础到就业,大家一起学习--Flink运行架构底层源码详解+实战
1、slot特点:1)均分隔离内存,不隔离CPU2)可以共享:同一个job中,不同算子的子任务 才可以共享同一个slot,同时在运行的前提是,属于同一个slot共享组,默认都是 default2、slot数量与并行度的关系1)slot是一种静态的概念,表示最大的并发上限并行度是一种动态的概念,表示实际运行占用了几个2)要求:slot数量 >= job并行度(算子最大并行度)Job才能运行注意:如果是yarn模式,会动态申请TaskManager。原创 2024-08-23 14:37:09 · 1612 阅读 · 0 评论 -
MySQL中处理JSON数据:大数据分析的新方向,MYSQL如何处理JSON数据,参数讲解+实战案例+全网最全
JSON是一种轻量级的数据交换格式,它使用文本表示结构化数据,支持嵌套结构,能够灵活地存储复杂的数据类型。},MySQL 5.7版本首次引入了原生的JSON数据类型,支持JSON数据的存储和查询。MySQL 8.0版本在JSON支持上进行了重大扩展,增加了如JSON_TABLEJSON_VALUE等功能,为大数据分析提供了更多可能性。原创 2024-08-20 18:12:47 · 1037 阅读 · 0 评论 -
2024年最新Flink教程,从基础到就业,大家一起学习--flink部署和集群部署(从本地测试到公司生产环境如何部署项目源码)
之前命令行提交flink程序的时候,需要-m指定要提交到的JobManager,例如hadoop102:8081,但是yarn模式下是不需要手动指定的,yarn会自动指定,如果想手动指定的话,在申请yarn session会话的时候,下面这个就是jobManager的地址,每次申请yarn session的时候,地址都是不一样的。在YARN环境中,由于有了外部平台做资源调度,所以我们也可以直接向YARN提交一个单独的作业,从而启动一个Flink集群。这里我们所提到的部署模式,相对是比较抽象的概念。原创 2024-08-14 18:39:53 · 1237 阅读 · 0 评论 -
Hadoop端口号全解析:掌握这些端口,轻松驾驭大数据集群,一文读懂常用端口号及其作用!
MapReduce作业的执行情况主要通过YARN ResourceManager的Web UI(即8088端口)来查看。虽然MapReduce本身不直接提供特定的Web UI端口,但其作业的日志和输出通常会存储在HDFS上,因此与HDFS相关的端口(如50070或9870,取决于Hadoop的版本)也可能用于间接地查看MapReduce作业的输出和日志。原创 2024-08-14 18:38:10 · 2537 阅读 · 0 评论 -
2024年最新Flink教程,从基础到就业,大家一起学习--Flink集群部署
Flink集群通过多个角色的协同工作,实现了高效、可靠的数据流处理。每个角色都承担着特定的职责,共同确保了作业的顺利执行和集群的稳定运行。原创 2024-08-09 21:30:24 · 1612 阅读 · 0 评论 -
2024年最新Flink教程,从基础到就业,大家一起学习--入门篇
定义:Socket(套接字)是一个编程接口(API),它提供了端到端的通信服务。在网络通信中,一个 Socket 可以视为一个 IP 地址和端口号的组合,用于唯一标识一个网络通信进程。类型:Socket 主要有两种类型:流式 Socket(SOCK_STREAM)和数据报 Socket(SOCK_DGRAM)。流式 Socket 基于 TCP 协议,提供面向连接的、可靠的数据传输服务;数据报 Socket 基于 UDP 协议,提供无连接的、尽最大努力的数据传输服务。原创 2024-08-08 23:46:05 · 1152 阅读 · 0 评论 -
2024年最新Flink教程,从基础到就业,大家一起学习--基础篇
Flink是一个开源的流处理框架,用于在无界和有界数据流上进行有状态的计算。它提供了低延迟、高吞吐量的数据流处理能力,并支持事件时间语义和灵活的窗口操作。Spark Streaming是Apache Spark的一个子模块,用于处理实时数据流。它将实时数据流转换为一系列小的RDD(弹性分布式数据集)批次,并对其进行处理。原创 2024-08-08 15:11:21 · 955 阅读 · 0 评论