![](https://img-blog.csdnimg.cn/20200305122715817.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
hadoop大数据
文章平均质量分 84
hadoop:大数据的主要架构.主要指的是hadoop族
959y
奋斗ing
展开
-
Hadoop介绍
HADOOP生态圈介绍文章目录HADOOP生态圈介绍1.生态圈2.总结1.生态圈1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,...原创 2020-02-08 23:33:00 · 604 阅读 · 0 评论 -
维度表和事实表以及明细表和宽表和窄表的区别
维度表和事实表以及明细表和宽表和窄表的区别原创 2023-03-16 13:19:05 · 2172 阅读 · 0 评论 -
[技术介绍] ClickHouse与Hive的区别
ClickHouse 和 Hive 的区别的介绍原创 2023-03-05 21:46:37 · 601 阅读 · 2 评论 -
[技术选型] ClickHouse和StarRocks的介绍
StarRocks介绍和ClickHouse的OLAP介绍原创 2023-02-14 20:14:34 · 2901 阅读 · 0 评论 -
[电商实时数仓] 用户行为数据和业务数据采集以及ODS层
[电商实时数仓] 用户行为数据和业务数据采集以及ODS层原创 2023-01-26 16:30:21 · 1669 阅读 · 0 评论 -
[电商实时数仓] 数据仓库建模过程分析
数据仓库建模过程原创 2023-01-20 14:22:30 · 2579 阅读 · 0 评论 -
大数据数仓高级面试题 3
大数据数仓高级面试题 3原创 2023-01-12 17:52:44 · 1199 阅读 · 0 评论 -
大数据数仓高级面试题 1
大数据数仓高级面试题 1原创 2023-01-09 15:48:35 · 850 阅读 · 1 评论 -
大数据数仓高级面试题 4
1.数仓构建1). 前期业务调研 需求调研 数据调研 技术选型2). 提炼业务模型,总线矩阵,划分主题域;3). 定制规范 命名规范、开发规范、流程规范4). 数仓架构分层:一般分为操作数据层(ODS)、公共维度模型层(CDM)和应用数据层(ADS),其中公共维度模型层包括明细数据层(DWD和汇总数据层(DWS)公共维度模型层(CDM):存放明细事实数据、维表数据及公共指标汇总数据,其中明细事实数据、维表数据一般根据ODS层数据加工生成:公共指标汇总数据一般根据维表数据和明细事实数据加工生成。C原创 2021-10-28 15:07:16 · 506 阅读 · 0 评论 -
大数据数仓高级面试题 2
1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。1)数据仓库是用于支持决策、面向分析型数据处理;2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术。分别是:数据仓库技术、Hadoop。当数据为结构化数据,来自传统的数据源,则采用数据仓库技术来存储和处理这些数据,如下图:2、数据仓库和数据库原创 2021-07-28 13:18:09 · 1998 阅读 · 0 评论 -
数据仓库发展
数仓发展历程原创 2022-08-11 19:10:13 · 223 阅读 · 0 评论 -
大数据平台之数据存储
大数据之数据存储技术原创 2022-08-03 21:53:22 · 17419 阅读 · 0 评论 -
Flink_cep_2
文章目录1.模式Api (Partern Api)1.1 个体模式1.1.1 个体模式形式1.1.2 个体模式中的量词1.1.3 条件 Conditions1.模式Api (Partern Api)Flink CEP 核心就是模式1.1 个体模式1.1.1 个体模式形式每一个简单事件并不是任意选取的,也需要有一定的条件规则;所以我们就把每个简单事件的匹配规则称为个体模式.<LoginEvent>begin("one") .where(new Simpl原创 2022-04-08 14:52:14 · 464 阅读 · 0 评论 -
Flink_cep_1
文章目录1.CEP概述1.CEP概述原创 2022-04-07 15:04:06 · 473 阅读 · 0 评论 -
Flink_Sql和Table Api_3
文章目录1.函数1.1 系统自定义函数1.1.1 标量函数1.1.2 聚合函数(Aggregate Functions)1.2 UDF 函数1.2.1 标量函数1.2.2 表函数1.函数系统内置函数UDF函数1.1 系统自定义函数标量函数(Scalar Functions)聚合函数(Aggregate Functions)1.1.1 标量函数所谓的“标量”,是指只有数值大小、没有方向的量;所以标量函数指的就是只对输入数据做转换操作、返回一个值的函数。这里的输入数据对应在表中,一般就是原创 2022-04-06 15:10:43 · 2499 阅读 · 0 评论 -
Flink_Sql和Table Api_2
文章目录1.时间属性 Time1.1 事件时间1.2 处理时间2.窗口 Window3.聚合查询3.1 分组聚合1.时间属性 Time基于时间的操作(比如时间窗口),需要定义相关的时间语义和时间数据来源的信息。在Table API 和 SQL 中,会给表单独提供一个逻辑上的时间字段,专门用来在表处理程序中指示时间。所以所谓的时间属性(time attributes),其实就是每个表模式结构(schema)的一部分。它可以在创建表的 DDL 里直接定义为一个字段,也可以在 DataStream 转换成表原创 2022-04-05 13:59:03 · 466 阅读 · 0 评论 -
Flink_Sql和Table Api_1
文章目录1.Flink Sql介绍2.快速上手2.1 Flink sql 编程12.2 Flink Sql 编程23.相关表3.1 连接器表1.Flink Sql介绍可以看出来Flink SQL 位于顶层在 Flink 中这两种 API 被集成在一起,SQL 执行的对象也是 Flink 中的表(Table),所以我们一般会认为它们是一体的。Flink 是批流统一的处理框架,无论是批处理(DataSet API)还是流处理(DataStream API),在上层应用中都可以直接使用 TableAP原创 2022-04-04 13:56:24 · 2084 阅读 · 0 评论 -
Flink_状态编程_2
文章目录1.算子状态概述1.1 算子状态分类1.2 状态分析1.3 CheckpointedFunction 接口2.算子状态 编程案例2.1 列表状态案例2.2 广播机制 案例3.状态持久化和状态后端3.1 检查点(Checkpoint)3.2 状态后端 state Backends4.状态编程总结1.算子状态概述1.1 算子状态分类算子状态:列表状态, 联合列表状态, 广播状态ListState, UnionListState, BroadcastState1.2 状态分析列表状态原创 2022-04-02 13:34:24 · 483 阅读 · 0 评论 -
Flink_状态编程_1
文章目录1.Flink 中的状态1.1 状态管理1.2 状态的分类2.按键分区状态 (keyed state)2.1 值类型2.2 列表状态 List State2.3 映射状态 Map State2.4 聚合状态 Aggregating State1.Flink 中的状态1.1 状态管理状态的访问权限。我们知道 Flink 上的聚合和窗口操作,一般都是基于 KeyedStream的,数据会按照 key 的哈希值进行分区,聚合处理的结果也应该是只对当前 key 有效。然而同一个分区(也就是 slo原创 2022-03-30 14:43:14 · 2398 阅读 · 0 评论 -
Spark GraphX_2
文章目录1.PageRank2.Pregel1.PageRank历史上,PageRank算法作为计算互联网网页重要度的算法被提出。PageRank是定义在网页集合上的一个函数,它对每个网页给出一个正实数,表示网页的重要程度,整体构成一个向量,PageRank值越高,网页就越重要,在互联网搜索的排序中可能就被排在前面。直观上,一个网页,如果指向该网页的超链接越多,随机跳转到该网页的概率也就越高,该网页的PageRank值就越高,这个网页也就越重要。一个网页,如果指向该网页的PageRank值越高,随机跳原创 2022-03-29 18:50:30 · 806 阅读 · 0 评论 -
Spark GraphX_1
文章目录1.基本概念1.基本概念图(Graph)由顶点(Vertex)和边(Edge)组成图根据边是否有方向,可以分为有向图和无向图有环图和无环图:原创 2022-03-29 13:54:03 · 324 阅读 · 0 评论 -
Flink_窗口_Window
文章目录1.窗口概述2.窗口分类2.1 时间窗口2.2 计数窗口3.细分3.1 滚动窗口3.2 滑动窗口3.3 会话窗口3.4 全局窗口4.窗口Api4.1 按键分区窗口4.2 非按键分区4.3 代码中窗口Api的调用5.窗口分配器 Window Assigners5.1 时间窗口5.2 计数窗口5.3 全局窗口6.窗口函数6.1 增量函数6.2 全量函数7.TopN 实例1.窗口概述Flink 是一种流式计算引擎,主要是来处理无界数据流的,数据源源不断、无穷无尽。想要更加方便高效地处理无界流,一种方式原创 2022-03-28 17:28:49 · 1328 阅读 · 0 评论 -
Flink_Time_时间语义_水平线
文章目录1.时间语义概述2.水平线 Watermark2.1 Watermark 介绍2.2 Watermark 特点2.3 如何生成水位线2.4 有序流2.5 无序流2.6 完整代码2.7 Watermark 总结1.时间语义概述对于一台机器而言,“时间”自然就是指系统时间。但我们知道,Flink 是一个分布式处理系统。分布式架构最大的特点,就是节点彼此独立、互不影响,这带来了更高的吞吐量和容错性;但有利必有弊,最大的问题也来源于此。在事件发生之后,生成的数据被收集起来,首先进入分布式消息队列,然原创 2022-03-27 16:06:32 · 875 阅读 · 0 评论 -
Canal CDC
文章目录1.Canal介绍1.1 Mysql 的binlog介绍1.2 Canal 的运行原理1.3 Canal使用场景2.Mysql 的配置准备3.Canal 的准备4.Canal 数据结构分析5.Java 代码6.Kafka 测试1.Canal介绍阿里巴巴 B2B 公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了同步杭州和美国异地机房的需求,从 2010 年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务。原创 2022-03-27 15:05:59 · 1821 阅读 · 0 评论 -
Flink CDC
文章目录1.CDC概述1.1 CDC1.2 CDC 分类1.3 Flink-CDC1.4 ETL 分析2.Flink CDC 编码2.1 提前准备2.2 mysql 的设置2.3 java 代码编写3.利用自定义格式编码4.Flink Sql 编码5.Flink CDC 2.0 的新特性1.CDC概述1.1 CDCCDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写原创 2022-03-26 16:14:16 · 2484 阅读 · 0 评论 -
[技术选型] 开源大数据OLAP引擎
文章目录1.开源OLAP综述2.开源数仓解决方案1.开源OLAP综述如今的开源数据引擎多种多样,不同种类的引擎满足了我们不同的需求。现在ROLAP计算存储一体的数据仓库主要有三种,即StarRocks(DorisDB),ClickHouse和Apache Doris。应用最广的数据查询系统主要有Druid,Kylin和HBase。MPP引擎主要有Trino,PrestoDB和Impala。这些引擎在行业内有着广泛的应用。在云资源层,主要有ECS。在存储层的JindoFS提供了以OSS为基底的Had原创 2022-03-24 22:07:58 · 709 阅读 · 0 评论 -
ClickHouse-2_安装
ClickHouse 安装原创 2022-03-22 19:41:10 · 300 阅读 · 0 评论 -
ClickHouse-1_概述
文章目录1.ClickHouse是什么2.ClickHouse的特点3.ClickHouse的适用场景1.ClickHouse是什么ClickHouse是俄罗斯Yandex开发的一款基于列式存储的开源OLAP查询数据库,基于C++语言开发的。ClickHouse在 2016 年开源,在计算引擎里算是一个后起之秀,在内存数据库领域号称是最快的。另外需要注意的是,ClickHouse并不是基于Hadoop生态的,而是采用 Local attached storage 作为存储,这样整个 IO 可能就没有原创 2022-03-21 20:30:26 · 337 阅读 · 0 评论 -
Flink 多流转换
文章目录1.分流1.1 简单实现2.Union聚合3.Connect 连接4.Join 合流4.1 Window Join 窗口联结4.2 Interval Join 间隔联结4.3 Window CoGroup 窗口同组联结5.总结1.分流所谓“分流”,就是将一条数据流拆分成完全独立的两条、甚至多条流。也就是基于一个DataStream,得到完全平等的多个子 DataStream,如图 8-1 所示。一般来说,我们会定义一些筛选条件,将符合条件的数据拣选出来放到对应的流里。1.1 简单实现其实根原创 2022-03-21 15:19:41 · 1085 阅读 · 0 评论 -
Spark Core - Spark_rdd_Source
文章目录1.From Memory2.From File3.From File1.From Memoryobject RDDTest01 { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("rdd").setMaster("local") val sc = new SparkContext(sparkConf) val rdd1 = sc.parallel原创 2022-03-20 18:48:33 · 441 阅读 · 0 评论 -
Spark Core - Spark_rdd
文章目录1.RDD特点:2.RDD的 5大属性3.RDD的执行原理4.Spark的核心组件1.RDD特点:可变:存储的弹性容错的弹性计算的弹性分片的弹性RDD 代码中是一个抽象类, 代表弹性的, 不可变, 可分区, 里面的元素可并行计算的集合, 为弹性分布式数据集。RDD 不保存数据, 但是有血缘关系。不可变的是逻辑, 如果想加入新的逻辑, 必须封装。2.RDD的 5大属性分区列表分区计算函数多个RDD有依赖关系分区器: 一个分区的规则, 和Kafka 类似首选位原创 2022-03-19 17:10:02 · 1017 阅读 · 0 评论 -
Flink教程4_Sink输出
文章目录1.输出到File文件2.输出到Kafka中3.输出到Mysql中1.输出到File文件public class SinkTest01 { public static void main(String[] args) throws Exception { StreamExecutionEnvironment environment = StreamExecutionEnvironment.getExecutionEnvironment(); environ原创 2022-03-18 17:46:35 · 2461 阅读 · 0 评论 -
ELT和ETL
ETL 和 ELT 有很多共同点,从本质上讲,每种集成方法都可以将数据从源端抽取到数据仓库中,两者的区别在于数据在哪里进行转换文章目录1.ETL2.ELT3.ELT的演变4.ELT的工作原理5.什么时候我们选择ELT6.数据湖是不是很好的ELT落脚点7.总结1.ETLETL - 抽取、转换、加载从不同的数据源抽取信息,将其转换为根据业务定义的格式,然后将其加载到其他数据库或数据仓库中。另一种 ETL 集成方法是反向 ETL,它将结构化数据从数据仓库中加载到业务数据库中,如我们常用数据仓库加工好的报原创 2022-03-17 20:57:26 · 602 阅读 · 0 评论 -
实时数仓之 Kappa 架构与 Lambda 架构
文章目录1.数据仓库概念2.离线大数据架构3.Lambda 架构4.Kappa 架构5. Lambda 架构与 Kappa 架构的对比1.数据仓库概念数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库概念是 Inmon 于 1990 年提出并给出了完整的建设方法。随着互联网时代来临,数据量暴增,开始使用 大数据工具 来替代经典数仓中的传统工具。原创 2022-03-14 17:39:50 · 1413 阅读 · 0 评论 -
kafka的数据结构和算法
文章目录1.第一次分治2.第二次分治3.第三次分治4.第四次分治5.查询逻辑6.总结1.第一次分治kafka通过topic给用户提供数据的读写,对于不同的业务来说,可以定义不同的topic来达到数据分治的目的,不同的业务写入或者读取不同的topic,且不同的topic会尽可能分散在不同的broker中,提高数据的IO效率。虽然kafka没有限制topic的个数,但是也不要盲目多建,因为越多的topic,代表着越多的数据存储单元,容易导致同一个topic的数据在磁盘存储位置的不连续,从而降低数据读写的原创 2022-03-08 20:59:02 · 2773 阅读 · 0 评论 -
数仓链路保障体系与数据测试方法
文章目录1.数据链路介绍2.数据层测试2.1 数据及时性2.2 数据完整性2.3 数据准确性3.应用层测试4.后续规划1.数据链路介绍应用服务层、数据网关层、应用存储层、数据仓库,并且作业开发、元数据管理等平台为数据计算、任务调度以及数据查询提供了基础能力。对于质量把控来说,最核心的两个部分是:数据仓库以及数据应用部分。因为这两部分属于数据链路中的核心环节,相对于其他层级而言,日常改动也更为频繁,出现问题的风险也比较大。2.数据层测试数据层的质量保障,可以分成三个方面:数据及时性、完整性、准确性原创 2022-03-07 18:21:11 · 765 阅读 · 0 评论 -
Kafka_ConfigCommond/Producer命令详解
文章目录1.查询配置2.增删改 配置3.kafka-console-producer1.查询配置1.查询单个Topic配置(只列举动态配置)sh bin/kafka-configs.sh --describe --bootstrap-server xxxxx:9092 --topic test_create_topic 或者 sh bin/kafka-configs.sh --describe --bootstrap-server 172.23.248.85:9092 --entity-typ原创 2022-02-17 18:56:22 · 1705 阅读 · 0 评论 -
[Doris] Doris架构原理 (一)
1.介绍Doris是一个MPP的OLAP系统,以较低的成本提供在大数据集上的高性能分析和报表查询功能。MPP (Massively Parallel Processing),即大规模并行处理。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)注:MPPDB与Hadoop都是将运算分布到节点中独立运算后进行结果合并(分布式计算),但由于依据的理论和采用的技术路线不同而有各自的优缺点和适用范围。我们现在大数据存储原创 2021-10-04 20:25:09 · 4429 阅读 · 2 评论 -
Kafka_TopicCommand命令详解
文章目录1.TopicCommand1.1.Topic创建1.2.删除Topic1.3.Topic分区扩容1.4.查询Topic描述1.5 查询Topic列表1.TopicCommand1.1.Topic创建bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 3 --partitions 3 --topic test相关可选参数:1.2.删除Topicbin/kafka-top原创 2022-02-16 19:22:26 · 1614 阅读 · 0 评论 -
Kafka高性能设计之架构设计
1.Kafka 的技术难点Kafka 为实时日志流而生,要处理的并发和数据量非常大。可见,Kafka 本身就是一个高并发系统,它必然会遇到高并发场景下典型的三高挑战:高性能、高可用和高扩展。为了简化实现的复杂度,Kafka 最终采用了很巧妙的消息模型:它将所有消息进行了持久化存储,让消费者自己各取所需,想取哪个消息,想什么时候取都行,只需要传递一个消息的 offset 进行拉取即可。最终 Kafka 将自己退化成了一个「存储系统」。因此,海量消息的存储问题就是 Kafka 架构设计中的最大技术难原创 2022-02-15 18:21:34 · 774 阅读 · 0 评论