实战企业数据湖，抢先数仓新玩法

最新推荐文章于 2024-06-25 00:50:06 发布

大数据研习社

最新推荐文章于 2024-06-25 00:50:06 发布

阅读量801

点赞数

分类专栏：数据仓库大数据实时数仓文章标签：数据湖

本文链接：https://blog.csdn.net/dajiangtai007/article/details/123639169

版权

大数据实时数仓同时被 2 个专栏收录

12 篇文章 5 订阅

订阅专栏

数据仓库

6 篇文章 4 订阅

订阅专栏

第一部分概述

第1章数据导论

1.1 探索数据
1.2 什么是企业数据
1.3 企业数据管理
1.4 大数据相关概念
1.5 数据与企业的相关性
1.6 数据质量
1.7 企业中数据如何存放
1.8 企业现状
1.9 企业数字化转型
1.10 数据湖用例启示

第2章数据湖概念概览

2.1 什么是数据湖
2.2 数据湖如何帮助企业
2.3 数据湖是如何工作的
2.4 数据湖与数据仓库的区别
2.5 数据湖的构建方法
2.6 Lambda架构驱动的数据湖

第3章 Lambda架构：一种数据湖实现模式

3.1 什么是Lambda架构
3.2 Lambda 架构简史
3.3 Lambda架构的原则
3.4 Lambda架构的组件
3.5 Lambda架构的完整工作原理
3.6 Lambda架构的优势
3.7 Lambda架构的劣势
3.8 Lambda架构技术概览
3.9 应用Lambda
3.10 Lambda架构运行范例
3.11 Kappa架构

第4章数据湖中的Lambda应用

4.1 Hadoop发行版本介绍
4.2 影响企业大数据技术栈选择的因素
4.3 批处理层与数据处理
4.4 服务层

第二部分数据湖的技术组件

第5章基于Apache Sqoop的批量数据获取

5.1 数据湖背景中的数据获取
5.2 为什么使用Apache Sqoop
5.3 Sqoop的功能
5.4 Sqoop connector
5.5 Sqoop对HDFS的支持
5.6 Sqoop运行范例
5.7 适合使用Sqoop的场景
5.8 不适合使用Sqoop的场景
5.9 实时Sqooping是否可行
5.10 其他选项

第6章基于Apache Flume的流式数据获取

6.1 数据获取
6.2 为什么使用Flume
6.3 Flume的架构原则
6.4 Flume架构
6.5 Flume事件——流式数据
6.6 Flume Agent
6.7 Flume Source
6.8 Flume Channel
6.9 Flume Sink
6.10 Flume配置
6.11 Flume事务管理
6.12 Flume的其他组件
6.13 上下文路由
6.14 Flume运行范例
6.15 适合使用Flume的场景
6.16 不适合使用Flume的场景

第7章使用Apache Kafka构建消息层

7.1 数据湖背景中的消息层
7.2 为什么使用Apache Kafka
7.3 Kafka的架构
7.4 其他Kafka组件
7.5 Kafka编程接口
7.6 生产者和消费者的可靠性
7.7 Kafka的安全性
7.8 Kafka作为面向消息的中间件
7.9 Kafka与水平可扩展架构
7.10 Kafka连接
7.11 Kafka运行范例
7.12 适合使用Kafka的场景
7.13 不合适使用Kafka的场景

第8章使用Apache Flink处理数据

8.1 数据湖背景中的数据摄取层
8.2 为什么使用Apache Flink
8.3 Flink的工作原理
8.4 Flink的API
8.5 Flink运行范例
8.6 适合使用Flink的场景
8.7 不适合使用Flink的场景

第9章使用Apache Hadoop存储数据

9.1 数据湖背景中的数据存储和Lambda批处理层
9.2 为什么使用Hadoop
9.3 Hadoop的工作原理
9.4 Hadoop生态系统
9.5 Hadoop发行版
9.6 HDFS和数据格式
9.7 Hadoop用于近实时应用
9.8 Hadoop部署模式
9.9 Hadoop运行范例
9.10 不适合使用Hadoop的场景

第10章使用Elasticsearch存储全文索引

10.1 数据湖背景中的数据存储层与Lambda快速处理层
10.2 什么是Elasticsearch
10.3 为什么使用Elasticsearch
10.4 Elasticsearch的工作原理
10.5 Elastic Stack
10.6 Elastic Cloud
10.7 Elasticsearch DSL
10.8 Elasticsearch中的节点
10.9 Elasticsearch与关系数据库
10.10 Elasticsearch生态系统
10.11 Elasticsearch部署选项
10.12 Elasticsearch Client
10.13 Elasticsearch用于快速流式处理
10.14 Elasticsearch作为数据源
10.15 Elasticsearch用于内容索引
10.16 Elasticsearch与Hadoop
10.17 Elasticsearch运行范例
10.18 适合使用Elasticsearch的场景
10.19 不适合使用Elasticsearch的场景第三部分将所有技术整合在一起

第11章数据湖组件集成

11.1 数据湖的学习进程
11.2 数据湖架构的核心原则
11.3 企业数据湖面临的挑战
11.4 企业对数据湖的期望
11.5 数据湖的其他用途
11.6 了解更多关于数据存储的信息
11.7 更多关于数据处理的知识
11.8 数据安全
11.9 数据加密
11.10 元数据管理和治理
11.11 数据审计
11.12 数据可追溯性
11.13 了解更多服务层细节