![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 89
进击的Z同学
大数据开发工程师
展开
-
数据建模的基本流程
数据建模转载 2022-09-05 12:20:26 · 2753 阅读 · 0 评论 -
07Flink实时数仓(尚硅谷)- 实时项目优化
实时数仓原创 2022-07-23 12:26:48 · 1583 阅读 · 0 评论 -
06Flink实时数仓(尚硅谷)- 数据可视化接口实现
06Flink实时数仓(尚硅谷)- 数据可视化接口实现原创 2022-07-23 00:35:10 · 936 阅读 · 0 评论 -
05Flink实时数仓(尚硅谷)- ClickHouse
05Flink实时数仓(尚硅谷)- ClickHouse原创 2022-07-22 18:33:33 · 2599 阅读 · 0 评论 -
04Flink实时数仓(尚硅谷)- DWS 层业务实现
04Flink实时数仓(尚硅谷)- DWS 层业务实现原创 2022-07-22 17:14:45 · 892 阅读 · 0 评论 -
03Flink实时数仓(尚硅谷)- DWM 层业务实现
03Flink实时数仓(尚硅谷)- DWM 层业务实现原创 2022-07-22 16:32:23 · 840 阅读 · 1 评论 -
02Flink实时数仓(尚硅谷)- DWD层数据准备
实时数仓原创 2022-07-22 00:02:08 · 936 阅读 · 0 评论 -
尚硅谷大数据技术之 Flink-CDC(转)
CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。CDC 主要分为基于查询和基于 Binlog 两种方式,我们主要了解一下这两种之间的区别:Flink 社区开发了 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源,开源地址:https:原创 2022-07-10 23:54:14 · 1178 阅读 · 0 评论 -
Flink实时数仓(尚硅谷)- 数据采集
普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。离线计算:就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是 Hadoop 的 MapRedu原创 2022-07-10 23:28:46 · 2666 阅读 · 1 评论 -
kafka系列七、kafka核心配置(转)
111转载 2022-06-30 20:33:59 · 1079 阅读 · 0 评论 -
Flink物理分区(Physical Partitioning)(出自b站尚硅谷)
文章目录前言1. 随机分区(shuffle)2. 轮询分区(Round-Robin)3. 重缩放分区(rescale)4. 广播(broadcast)5. 全局分区(global)6. 自定义分区(Custom)前言顾名思义,“分区”(partitioning)操作就是要将数据进行重新分布,传递到不同的流分区去进行下一步处理。其实我们对分区操作并不陌生,前面介绍聚合算子时,已经提到了 keyBy,它就是一种按照键的哈希值来进行重新分区的操作。只不过这种分区操作只能保证把数据按key“分开”,至于分得均不原创 2022-05-26 00:09:06 · 1597 阅读 · 1 评论 -
zookeeper(尚硅谷b站课程笔记2021)
文章目录第 1 章 Zookeeper 入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景1.5 下载地址第 2 章 Zookeeper 本地安装第 3 章 Zookeeper 集群操作3.1 集群操作3.1.1 集群安装3.1.2 选举机制(面试重点)3.1.3 ZK 集群启动停止脚本3.2 客户端命令行操作3.2.1 命令行语法3.2.2 znode 节点数据信息3.2.3 节点类型(持久/短暂/有序号/无序号)3.2.4 监听器原理1)节点的值变化监听2)节点的子节点变化监听(路径变化)3.转载 2022-05-22 21:57:11 · 774 阅读 · 0 评论 -
Flink内核源码解析(出自B站尚硅谷)
文章目录任务提交流程本套教程针对Flink 1.12.0版本的核心模块进行源码级讲解,从任务提交流程、通讯过程、Task调度、内存模型四大方面入手,庖丁解牛逐行分析源码,手术刀级别剖析Flink内核架构!任务提交流程实例以yarn-per-job为例。flink提交作业是通过flink run进行提交的,可以从提交脚本中看到启动类即程序的入口是:org.apache.flink.client.cli.CliFrontend查看其中的main方法,执行的逻辑简单总结如下:获取flink的c原创 2022-05-06 00:04:46 · 6062 阅读 · 0 评论 -
Flink 非对齐 Checkpoint 执行流程详解(转)
文章目录当前 Checkpoint 机制简述Checkpoint 与反压的耦合Unaligned Checkpoint总结作为 Flink 最基础也是最关键的容错机制,Checkpoint 快照机制很好地保证了 Flink 应用从异常状态恢复后的数据准确性。同时 Checkpoint 相关的 metrics 也是诊断 Flink 应用健康状态最为重要的指标,成功且耗时较短的 Checkpoint 表明作业运行状况良好,没有异常或反压。然而,由于 Checkpoint 与反压的耦合,反压反过来也会作用于转载 2022-05-04 00:42:02 · 1462 阅读 · 3 评论 -
1w 字详解 Flink 双流 join 的 3 种解决及优化方案(转)
文章目录1 引子1.1 数据库SQL中的JOIN1.2 离线场景下的JOIN2 实时场景下的JOIN2.1 方案思路3 Flink的双流JOIN3.1 内部运行机制3.2 JOIN实现机制4 基于Window Join的双流JOIN实现机制4.1 join算子4.2 coGroup算子5 基于Interval Join的双流JOIN实现机制6 基于Connect的双流JOIN实现机制6.1 Connect算子原理6.2 技术实现7 双流JOIN的优化与总结如何保证Flink双流Join准确性和及时性、转载 2022-05-03 21:37:06 · 2555 阅读 · 0 评论 -
万字详解 Hive 查询的 18 种方式(转)
文章目录前言准备1、SELECT查询语句2、WHERE 条件语句3、GROUP BY 语句4、HAVING语句5、INNER JOIN语句6、 LEFT OUTER JOIN语句7、RIGHT OUTER JOIN语句8、FULL OUTER JOIN语句9、 LEFT SEMI JOIN语句10、笛卡尔积 JOIN 语句11、map-side JOIN语句12、多表JOIN语句13、ORDER BY 和 SORT BY 语句14、 DISTRIBUTE BY 和 SORT BY语句15、CLUSTER B转载 2022-05-03 11:42:13 · 1222 阅读 · 0 评论 -
Hive 核心知识点灵魂 16 问(转)
文章目录1. 请谈一下 Hive 的特点2. Hive 底层与数据库交互原理?3. Hive 的 HSQL 转换为 MapReduce 的过程?4. Hive 的两张表关联,使用 MapReduce 怎么实现?5. 请说明 hive 中 Sort By,Order By,Cluster By,Distrbute By 各代表什么意思?6. 写出 hive 中 split、coalesce 及 collect_list 函数的用法(可举例)?7. Hive 有哪些方式保存元数据,各有哪些特点?8. 内部表和外转载 2022-05-03 00:49:04 · 323 阅读 · 0 评论 -
1w 字详述 Flink CDC 打通数据实时入湖(转)
文章目录01 Flink CDC介绍02 Apache Iceberg介绍03Flink CDC打通数据实时导入Iceberg实践3.1 数据入湖环境准备3.2 数据入湖速度测试3.3 数据入湖任务运维3.4 数据入湖问题讨论04未来规划4.1 整合Iceberg到实时计算平台4.2 准实时数仓探索在构建实时数仓的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术,来解决业务数据实时入湖相关的问题。01 Fli转载 2022-05-01 14:20:40 · 920 阅读 · 0 评论 -
2022大数据面试总结
flinkkafka大数据实时计算flink sqlflink cdcjavahadoopclickhouse原创 2022-05-01 13:28:14 · 755 阅读 · 3 评论 -
Flink 对线面试官(五):2w 字详述双流 Join 3 种解决方案 + 2 种优化方案
文章目录1.前言2.Join 的应用场景3.为什么流式计算中提到 Join 小伙伴萌就怕呢?4.带大家看一遍本文思路5.Flink Join 解决方案:Flink Window Join5.1.解决方案说明5.2.解决方案 Flink APISQL API(Flink 1.14 版本 Window TVF 中支持):5.3.解决方案的特点5.4.解决方案的适用场景6.Flink Join 解决方案:Flink Interval Join6.1.解决方案说明6.2.解决方案 Flink API6.3.解决方案转载 2022-04-30 23:46:30 · 583 阅读 · 0 评论 -
详解 Flink 状态管理
文章目录1.前言2.状态是什么东西?有了状态能做什么?3.为什么离线计算中不提状态,实时计算老是提到状态这个概念?状态到底在实时计算中解决了什么问题?3.1 离线任务真的是没有状态、状态管理这些个概念这个概念嘛?3.2 实时任务真的只能依赖状态、状态管理嘛?4.有了状态、为什么又出现了状态管理的概念?5.怎么学习 Flink 中的状态、状态管理相关的概念呢?6.Flink 中状态的分类?7.Flink 中状态的使用方式?8.Flink 状态后端的分类及使用建议?9.Flink 中状态的能力扩展 - TTL?转载 2022-04-29 00:24:21 · 1261 阅读 · 0 评论 -
一文搞懂 Hadoop 生态系统的组件(转)
文章目录01Hadoop概述02Hadoop生态圈03Hadoop的优缺点导读:Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,目前由Apache软件基金会管理。通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力执行高速运算和存储。简单地说,Hadoop是一个平台,在它之上可以更容易地开发和运行处理大规模数据的软件。01Hadoop概述Hadoop体系也是一个计算框架,在这个框架下,可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理转载 2022-03-13 21:45:59 · 4892 阅读 · 0 评论 -
hadoop常用命令
文章目录hdfs相关hive相关1. 内部表于外部表的相互转化hdfs相关hive相关1. 内部表于外部表的相互转化alter table tableName set TBLPROPERTIES ('EXTERNAL'='TRUE'); //内部表转外部表alter table tableName set TBLPROPERTIES ('EXTERNAL'='FALSE'); //外部表转内部表 ...原创 2022-03-07 14:57:38 · 1701 阅读 · 0 评论 -
Hadoop distcp命令遇到的异常及解决方案
1. Caused by: java.io.IOException: Mismatch in length of source:hdfs://xxx and target:hdfs://xxx异常信息Caused by: java.io.IOException: Mismatch in length of source:hdfs://xxx and target:hdfs://xxx原因需要远程复制的文件没有关闭,还处于写的状态。解决方案1 . 检查文件状态hdfs fsck hdfs://1转载 2022-01-18 15:47:25 · 1611 阅读 · 0 评论 -
canal同步mysql binlog数据到kafka
文章目录安装canal安装canal参考canal github官网进行安装:准备对于自建 MySQL , 需要先开启 Binlog 写入功能,配置 binlog-format 为 ROW 模式,my.cnf 中配置如下[mysqld]log-bin=mysql-bin # 开启 binlogbinlog-format=ROW # 选择 ROW 模式server_id=1 # 配置 MySQL replaction 需要定义,不要和 canal 的 slaveId 重复授权 canal原创 2021-08-07 09:56:54 · 2128 阅读 · 0 评论 -
利用sqoop将hive和mysql数据互导入(转)
文章目录一、sqoop 将数据从mysql 导入 hive二、sqoop 将数据从hive导出到 mysql一、sqoop 将数据从mysql 导入 hive导入步骤为:a.先将mysql数据用sqoop导入到hdfs中sqoop import --connect jdbc:mysql://xxx:3306/xxx \--username xxx \--password xxx \--query 'select columns from table_name where $CONDITION转载 2021-05-26 16:19:22 · 5506 阅读 · 1 评论 -
梯度科技基于Flink+Clickhouse构建实时数仓在广投集团的最佳实践(转)
文章目录一、业务背景二、常见的实时数仓方案三、为什么选择Flink+Clickhouse四、实时数仓1.0五、踩过的“坑”六、实践展望-实时数仓2.0原作者信息:刘伟平,梯度科技技术专家、大数据技术负责人,主要负责大数据产品的设计及开发。专注领域:数据中台,流计算,分布式存储。导读:Flink和ClickHouse分别是实时计算和(近实时)OLAP领域的翘楚,也是近些年非常火爆的开源框架,在实际中将两者结合使用来构建各种用途的实时平台,也取得了很好的效果。本文根据梯度科技大数据团队分享,由技术专转载 2021-05-15 14:16:29 · 1032 阅读 · 0 评论 -
Elasticsearch入门
文章目录1. Elasticsearch安装1. Elasticsearch安装Elasticsearch配置说明配置文件位于config目录中elasticsearch.yml:es的相关配置jvm.options:jvm的相关参数log4j2.properties:日志相关配置elasticsearch.yml 关键配置说明cluster.name:集群名称,以此作为是否同一集群的判断条件node.name:节点名称,以此作为集群中不同节点的区分条件network.host/h原创 2021-03-25 23:20:54 · 185 阅读 · 0 评论 -
OLAP数仓入门:进阶篇
文章目录1. 有哪些类型的OLAP数仓?2. 有哪些常用的开源ROLAP产品?导读:前一篇文章从OLTP出发,通过对比引出OLAP,进一步介绍了数仓的基本概念,包括多维数据模型、数据立方体及其典型操作等。本篇再进一步,将介绍OLAP的类型及其代表产品,并分析主流开源OLAP产品的核心技术点。未看过前一篇文章的读者,欢迎做进一步了解:OLAP数仓入门:基础篇1. 有哪些类型的OLAP数仓?1. 按数据量划分对一件事物或一个东西基于不同角度,可以进行多种分类方式。对数仓产品也一样。比如我们可以基转载 2021-01-25 17:19:33 · 455 阅读 · 0 评论 -
OLAP数仓入门:基础篇
文章目录导读:近七年在网易杭研一直从事数据库相关的开发工作,主要是MySQL和MongoDB这两种数据库,去年开始涉及图数据库Neo4J。上述几种,都可认为是OLTP类数据处理,由于工作需要,需要调研学习OLAP技术和相关系统,本文开始逐步进行第一轮总结,很多东西还只是片面理解,权当做个笔记。对事物的认识总是螺旋式的,先有个大致的认识,再逐渐丰富其血肉。这个过程,会有片面性、也可能否定之前的理解,但只要一直用心用脑,总会不断进步的。当然,多参考优秀的资料,会大大缩短过程中花费的时间。...转载 2021-01-23 16:02:38 · 597 阅读 · 0 评论 -
Flink Redis Sink
文章目录官方API自定义Redis Sink官方APIflink提供了专门操作redis的Redis Sink依赖 <dependency> <groupId>org.apache.bahir</groupId> <artifactId>flink-connector-redis_2.11</artifactId> <version>1.0</version></dependency&原创 2020-10-28 20:54:09 · 1743 阅读 · 0 评论 -
spark本地调试(idea)
spark批处理程序通常是跑在类似yarn等集群环境中的,可是在进行开发的时候,不可避免的需要进行本地开发调试,记录下idea下调试本地spark程序方法。demo代码:/** * @description: 读取本地json文件,字符串解析出id并输出 */object CountPictureByDayTest { def main(args: Array[String]): Unit = { @transient val spark = SparkS原创 2020-10-23 14:44:04 · 3055 阅读 · 0 评论 -
mac下Hadoop、HDFS、Spark环境的安装和搭建(转)
环境搭建相比之前搭建Hadoop环境的Windows系统的相对繁琐步骤,Mac下显得简单不少。虽然我们需要搭建的是Spark环境,但是因为Spark依赖了Hadoop的HDFS以及YARN计算框架,当然还有类似软件包管理软件。安装前必备操作系统: Mac OS XJDK:1.8.0_251命令终端:iTerm2(Mac自带的命令终端也一样,只是配置环境参数需要到~/.bash_profile下添加,对于iTerm2需要到~/.zshrc中添加)软件包管理工具:brew(能够方便的安装和卸载软件转载 2020-10-17 15:03:04 · 787 阅读 · 0 评论 -
Hive简介及核心概念(未完)
文章目录一、简介二、Hive的体系架构2.1 command-line shell & thrift/jdbc2.2 Metastore2.3 HQL的执行流程三、数据类型3.1 基本数据类型一、简介Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。特点:简单、容易上手 (提供了类似 sql 的查询语言 hql),使得精通 sql原创 2020-08-31 15:26:34 · 318 阅读 · 0 评论 -
Flink on yarn部署及任务提交
文章目录1. 完成hadoop本地配置后启动2. flink提交作业到yarn的两种方式2.1 Flink ON Yarn启动流程2.2 Flink YARN Session2.2 Run a single Flink job on YARNHadoop单机yarn配置可参考博客,除了里面提到的./start-yarn.sh外,也可以使用./start-all.sh。1. 完成hadoop本地配置后启动# yarn方式启动,也可以使用 ./start-yarn.sh~/software/hadoop原创 2020-08-04 10:17:36 · 2642 阅读 · 0 评论 -
HDFS 常用 shell 命令
文章目录1. 显示当前目录结构2. 创建目录3. 删除操作4. 从本地加载文件到 HDFS5. 从 HDFS 导出文件到本地6. 查看文件内容7. 显示文件的最后一千字节8. 拷贝文件9. 移动文件10. 统计当前目录下各文件大小11. 合并下载多个文件12. 统计文件系统的可用空间信息13. 更改文件复制因子14. 权限控制15. 文件检测1. 显示当前目录结构# 显示当前目录结构hadoop fs -ls <path># 递归显示当前目录结构hadoop fs -ls -R转载 2020-07-31 14:15:27 · 522 阅读 · 0 评论 -
Hadoop单机版环境搭建
文章目录一、前置条件二、配置免密登录(本地单机可不设置直接跳到下一节)2.1 配置映射2.2 生成公私钥2.3 授权三、Hadoop(HDFS)环境搭建3.1 下载并解压3.2 配置环境变量3.3 修改Hadoop配置3.4 关闭防火墙3.5 初始化3.6 启动HDFS3.7 验证是否启动成功四、Hadoop(YARN)环境搭建4.1 修改配置4.2 启动服务4.3 验证是否启动成功一、前置条件Hadoop 的运行依赖 JDK,需要预先安装,版本为1.8以上即可,这里不再赘述。二、配置免密登录(本地单原创 2020-07-31 14:01:02 · 662 阅读 · 0 评论 -
基于Zookeeper搭建Kafka高可用集群
文章目录一、Zookeeper集群搭建1.1 下载 & 解压1.2 修改配置一、Zookeeper集群搭建为保证集群高可用,Zookeeper 集群的节点数最好是奇数,最少有三个节点,所以这里搭建一个三个节点的集群。1.1 下载 & 解压下载对应版本 Zookeeper,这里我下载的版本 3.4.14。官方下载地址:https://archive.apache.org/dist/zookeeper/# 下载wget https://archive.apache.org/dist/转载 2020-07-30 14:24:30 · 281 阅读 · 0 评论 -
Zookeeper常用Shell命令
文章目录一、节点增删改查1.1 启动服务和连接服务1.2 help命令1.3 查看节点列表1.4 新增节点1.5 查看节点1.6 更新节点1.7 删除节点二、监听器2.1 get path [watch]2.2 stat path [watch]2.3 ls\ls2 path [watch]三、 zookeeper 四字命令一、节点增删改查1.1 启动服务和连接服务# 启动服务bin/zkServer.sh start#连接服务 不指定服务地址则默认连接到localhost:2181zkCli转载 2020-07-29 10:53:57 · 385 阅读 · 0 评论 -
Zookeeper单机环境和集群环境搭建
一、单机环境搭建1.1 下载下载对应版本 Zookeeper,这里我下载的版本 3.4.14。官方下载地址:https://archive.apache.org/dist/zookeeper/# wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz1.2 解压# tar -zxvf zookeeper-3.4.14.tar.gz1.3 配置环境变量# vim /etc/转载 2020-07-29 09:50:56 · 247 阅读 · 0 评论