进击的Z同学
码龄8年
  • 556,740
    被访问
  • 274
    原创
  • 2,611
    排名
  • 613
    粉丝
  • 9
    铁粉
关注
提问 私信

个人简介:大数据开发工程师

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2014-12-01
博客简介:

qq_24095055的博客

查看详细资料
  • 4
    领奖
    总分 742 当月 22
个人成就
  • 获得506次点赞
  • 内容获得76次评论
  • 获得1,149次收藏
创作历程
  • 27篇
    2022年
  • 15篇
    2021年
  • 78篇
    2020年
  • 275篇
    2019年
成就勋章
TA的专栏
  • flink
  • 大数据
    65篇
  • Java面试归纳总结
    16篇
  • linux
    1篇
  • 消息队列
    2篇
  • 中间件
    2篇
  • redis
    6篇
  • util
    1篇
  • 项目
  • java面试
    7篇
  • 其他
    14篇
  • 数据库
    29篇
  • python
    12篇
  • 前端
    3篇
  • java
    214篇
  • 服务器
    18篇
  • 深度学习
    2篇
  • 错误总结
    7篇
  • redis&mq
    4篇
  • redis&mq
  • redis&mq
    1篇
  • 容器化
    4篇
  • 计算机网络
兴趣领域 设置
  • 数据结构与算法
    数据结构
  • 大数据
    hadoop大数据mysqlflinkhive
  • 后端
    spring
  • 云原生
    zookeeper
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

07Flink实时数仓(尚硅谷)- 实时项目优化

实时数仓
原创
发布博客 2022.07.23 ·
282 阅读 ·
0 点赞 ·
0 评论

06Flink实时数仓(尚硅谷)- 数据可视化接口实现

06Flink实时数仓(尚硅谷)- 数据可视化接口实现
原创
发布博客 2022.07.23 ·
206 阅读 ·
0 点赞 ·
0 评论

05Flink实时数仓(尚硅谷)- ClickHouse

05Flink实时数仓(尚硅谷)- ClickHouse
原创
发布博客 2022.07.22 ·
193 阅读 ·
0 点赞 ·
0 评论

04Flink实时数仓(尚硅谷)- DWS 层业务实现

04Flink实时数仓(尚硅谷)- DWS 层业务实现
原创
发布博客 2022.07.22 ·
350 阅读 ·
0 点赞 ·
0 评论

03Flink实时数仓(尚硅谷)- DWM 层业务实现

03Flink实时数仓(尚硅谷)- DWM 层业务实现
原创
发布博客 2022.07.22 ·
221 阅读 ·
0 点赞 ·
0 评论

02Flink实时数仓(尚硅谷)- DWD层数据准备

实时数仓
原创
发布博客 2022.07.22 ·
124 阅读 ·
0 点赞 ·
0 评论

datasync 数据同步 大数据 python

发布资源 2022.07.18 ·
zip

尚硅谷大数据技术之 Flink-CDC(转)

CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。CDC 主要分为基于查询和基于 Binlog 两种方式,我们主要了解一下这两种之间的区别:Flink 社区开发了 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源,开源地址:https:
原创
发布博客 2022.07.10 ·
75 阅读 ·
0 点赞 ·
0 评论

Flink实时数仓(尚硅谷)- 数据采集

普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。离线计算:就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是 Hadoop 的 MapRedu
原创
发布博客 2022.07.10 ·
474 阅读 ·
0 点赞 ·
0 评论

Linux查看磁盘空间占用

linux 磁盘
转载
发布博客 2022.07.08 ·
69 阅读 ·
0 点赞 ·
0 评论

kafka系列七、kafka核心配置(转)

111
转载
发布博客 2022.06.30 ·
164 阅读 ·
0 点赞 ·
0 评论

Flink物理分区(Physical Partitioning)(出自b站尚硅谷)

文章目录前言1. 随机分区(shuffle)2. 轮询分区(Round-Robin)3. 重缩放分区(rescale)4. 广播(broadcast)5. 全局分区(global)6. 自定义分区(Custom)前言顾名思义,“分区”(partitioning)操作就是要将数据进行重新分布,传递到不同的流分区去进行下一步处理。其实我们对分区操作并不陌生,前面介绍聚合算子时,已经提到了 keyBy,它就是一种按照键的哈希值来进行重新分区的操作。只不过这种分区操作只能保证把数据按key“分开”,至于分得均不
原创
发布博客 2022.05.26 ·
188 阅读 ·
2 点赞 ·
1 评论

zookeeper(尚硅谷b站课程笔记2021)

文章目录第 1 章 Zookeeper 入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景1.5 下载地址第 2 章 Zookeeper 本地安装第 3 章 Zookeeper 集群操作3.1 集群操作3.1.1 集群安装3.1.2 选举机制(面试重点)3.1.3 ZK 集群启动停止脚本3.2 客户端命令行操作3.2.1 命令行语法3.2.2 znode 节点数据信息3.2.3 节点类型(持久/短暂/有序号/无序号)3.2.4 监听器原理1)节点的值变化监听2)节点的子节点变化监听(路径变化)3.
转载
发布博客 2022.05.22 ·
141 阅读 ·
0 点赞 ·
0 评论

macOS解压时“错误22 - 无效的参数”(转)

如果Zip文件是在Windows系统创建而且编码存在问题时,用MacBook的macOS自带的解压程序“归档使用工具”是解压不了的,这里提供两种方法。软件The Unarchiver解压有一种方法是改后缀名为rar后用The Unarchiver解压,但这种方法不一定能成功。通过终端输入命令另外一种方法是打开电脑终端,用macOS自带的输入命令ditto解压:ditto -x -k /要解压的文件.zip /要保存的路径注意,文件一定要是带路径的,最好的方法是输入ditto -x -k后拖拽文
转载
发布博客 2022.05.13 ·
433 阅读 ·
0 点赞 ·
0 评论

Flink内核源码解析(出自B站尚硅谷)

文章目录任务提交流程本套教程针对Flink 1.12.0版本的核心模块进行源码级讲解,从任务提交流程、通讯过程、Task调度、内存模型四大方面入手,庖丁解牛逐行分析源码,手术刀级别剖析Flink内核架构!任务提交流程实例以yarn-per-job为例。flink提交作业是通过flink run进行提交的,可以从提交脚本中看到启动类即程序的入口是:org.apache.flink.client.cli.CliFrontend查看其中的main方法,执行的逻辑简单总结如下:获取flink的c
原创
发布博客 2022.05.06 ·
630 阅读 ·
0 点赞 ·
0 评论

Flink 非对齐 Checkpoint 执行流程详解(转)

文章目录当前 Checkpoint 机制简述Checkpoint 与反压的耦合Unaligned Checkpoint总结作为 Flink 最基础也是最关键的容错机制,Checkpoint 快照机制很好地保证了 Flink 应用从异常状态恢复后的数据准确性。同时 Checkpoint 相关的 metrics 也是诊断 Flink 应用健康状态最为重要的指标,成功且耗时较短的 Checkpoint 表明作业运行状况良好,没有异常或反压。然而,由于 Checkpoint 与反压的耦合,反压反过来也会作用于
转载
发布博客 2022.05.04 ·
402 阅读 ·
0 点赞 ·
2 评论

1w 字详解 Flink 双流 join 的 3 种解决及优化方案(转)

文章目录1 引子1.1 数据库SQL中的JOIN1.2 离线场景下的JOIN2 实时场景下的JOIN2.1 方案思路3 Flink的双流JOIN3.1 内部运行机制3.2 JOIN实现机制4 基于Window Join的双流JOIN实现机制4.1 join算子4.2 coGroup算子5 基于Interval Join的双流JOIN实现机制6 基于Connect的双流JOIN实现机制6.1 Connect算子原理6.2 技术实现7 双流JOIN的优化与总结如何保证Flink双流Join准确性和及时性、
转载
发布博客 2022.05.03 ·
389 阅读 ·
0 点赞 ·
0 评论

万字详解 Hive 查询的 18 种方式(转)

文章目录前言准备1、SELECT查询语句2、WHERE 条件语句3、GROUP BY 语句4、HAVING语句5、INNER JOIN语句6、 LEFT OUTER JOIN语句7、RIGHT OUTER JOIN语句8、FULL OUTER JOIN语句9、 LEFT SEMI JOIN语句10、笛卡尔积 JOIN 语句11、map-side JOIN语句12、多表JOIN语句13、ORDER BY 和 SORT BY 语句14、 DISTRIBUTE BY 和 SORT BY语句15、CLUSTER B
转载
发布博客 2022.05.03 ·
266 阅读 ·
0 点赞 ·
0 评论

Hive 核心知识点灵魂 16 问(转)

文章目录1. 请谈一下 Hive 的特点2. Hive 底层与数据库交互原理?3. Hive 的 HSQL 转换为 MapReduce 的过程?4. Hive 的两张表关联,使用 MapReduce 怎么实现?5. 请说明 hive 中 Sort By,Order By,Cluster By,Distrbute By 各代表什么意思?6. 写出 hive 中 split、coalesce 及 collect_list 函数的用法(可举例)?7. Hive 有哪些方式保存元数据,各有哪些特点?8. 内部表和外
转载
发布博客 2022.05.03 ·
56 阅读 ·
0 点赞 ·
0 评论

1w 字详述 Flink CDC 打通数据实时入湖(转)

文章目录01 Flink CDC介绍02 Apache Iceberg介绍03Flink CDC打通数据实时导入Iceberg实践3.1 数据入湖环境准备3.2 数据入湖速度测试3.3 数据入湖任务运维3.4 数据入湖问题讨论04未来规划4.1 整合Iceberg到实时计算平台4.2 准实时数仓探索在构建实时数仓的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术,来解决业务数据实时入湖相关的问题。01 Fli
转载
发布博客 2022.05.01 ·
169 阅读 ·
0 点赞 ·
0 评论
加载更多