大数据数仓理论

阿龙要当程序猿

已于 2024-04-02 12:37:41 修改

阅读量246

点赞数 5

文章标签：大数据

于 2024-03-19 22:19:39 首次发布

本文链接：https://blog.csdn.net/2201_75311251/article/details/136824844

版权

一.采集项目&数据仓库项目

1.1 采集

意义：以数据采集传递为主

技术：flume，kafka，dataX，maxwell

区分：

名称：基础核心数据 database

数据来源：企业业务数据

数据存储：核作用就是查找业务数据，行式存储，索引，不可以存储海量数据

数据价值：全企业全业务的正常运行

1.2 数据仓库

意义：以数据存储，计算为主

技术：Mysql ，Hdfs，Spark，Flink，Hive，MR

区分：

名称：数据仓库，货仓；货栈 data warehouse

数据来源：数据库数据进行加工

数据存储：统计分析数据（列式存储）

数据价值：将数据统计结果为企业的经营决策提供数据支持

数据仓库不是数据流转的终点，通过可视化展示出来

二.数据流转的过程

三.数据仓库的核心功能：

统计分析

Spark，MR，Flink 效率慢

SQL方式效率快

spark on hive：spark解析SQL

hive on spark：hive 解析SQL

统计分析基本步骤（WordCount）

数据仓库同样遵循这个原则

数据仓库流程之解耦合

数据仓库流程之数据采集

数据仓库流程之可视/化

四.项目准备工作

项目技术如何选型？

框架版本发行如何选型（Apache，CDH，HDP）？

服务器使用物理机还是云主机？

如何确认集群规模？

五.技术选型

六.系统数据流程图

七.框架发行版本选型

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿龙要当程序猿

关注关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

大数据数仓设计过程

None

09-24

1083

本文详细论述在大数据环境下的数据仓库设计理论，然后通过燃气行业一个小案例描述数仓的架构设计、ETL过程、模型设计方法和物理实施过程。欢迎订阅！数据仓库概念数据仓库是面向主题的、集成的、不...

大数据数仓理论1.1-离线

2201_75311251的博客

03-29

1731

内存将划分为多个区域，每个区域对应一个分区，当程序访问内存时系统将为其分配一个固定大小的分区；优点：简单易于管理缺点：浪费资源，内存碎片化积多。

参与评论您还未登录，请先登录后发表或查看评论

大数据数仓理论-实时

2201_75311251的博客

04-01

874

Flink是由JobManager，TaskManager，ReduceManager组成；协调器触发检查点，通过所有Task节点生成各自的检查点，每个task节点将当前状态写入本地状态后端，并将状态元数据发送给协调器，协调器负责接受所有task节点元数据并保存完整，生成一个全局检查点；主要依赖分布式快照checkpoint，事务性文件系统和幂等性技术，确保数据处理的精准一次性，数据写入的原子性和一致性，以及故障恢复的状态一致性，保证数据处理时的可靠性和准确性；当两个事件之间的时间过长，会话窗口就会关闭；

大数据数仓理论1.2-离线

2201_75311251的博客

03-30

505

1.2版本目录 HDFS读写流程； YARN集群提交流程； MapReduce执行流程；分区和分桶表； UDF和UTDF函数；

大数据数仓理论1.3-离线

2201_75311251的博客

03-31

750

hiveSQL优化；dataX和sqoop区别；spark为啥比mapreduce快；spark中RDD是啥；hiveSQL和sparkSQL区别；hiveonspark和sparkonhive区别；

[大数据之数仓建设理论】02 大数据数仓设计

没有梦想的咸鱼的博客

04-19

889

大数据数仓设计是针对海量数据处理和分析需求而设计的数据管理系统，旨在有效地收集、存储、处理和分析大规模和多样化的数据。该设计涵盖了数据模型、架构、ETL流程、数据质量管理等方面，以满足企业对数据洞察和决策支持的需求。本文将探讨大数据数仓设计的关键要素、最佳实践和挑战，为读者提供理解和实施大数据数仓的指导和启示。

大数据数仓模型设计理论

郝文的博客

04-29

266

一、事实表又可分成以下三种：事务事实表：保存各业务过程的原子操作事件，即最细粒度的操作事件周期快照事实表：以具有规律性的，可预见的事件间隔来记录事实，主要用来记录一些存量型(库存数量，账户余额)，或者状态型(温度，行驶速度)等指标累积快照事实表：是一个业务流程中多个关键业务过程联合处理而构建的事实表，主要用于分析业务过程(里程碑)中之间的时间间隔，典型示例如下订单id 用户id 下单日期支付日期 ...

数据仓库灵魂30问之传统数仓和大数据数仓的异同?有哪些大的变化?

寒暄的博客

07-11

1847

不同点：特性传统数仓 大数据数仓数据存储位置关系型数据库 HDFS 数据集市位置 MPP平台 HDFS 数据多样性结构化数据结构化数据、非结构化数据、半结构化数据节点数量几千几千~几万数据量 TB级别 PB级别商业价值较为单一极高用途 BI AI 应用开发接口 SQL SQL，多种编程接口事务支持支持完整支持有限操作难易度较高，需要专业人员较低，可以批量培训相同点：逻辑架构数据建模数据治理数据标准规范

大数据—数仓分层概论

麦当当的博客

04-27

1504

数据仓库的发展背景源于企业对大规模数据集成、数据分析和决策支持的需求，以及数据分析技术的不断发展和成熟，标志着企业逐渐转向数据驱动的企业文化。数据仓库作为一个面向主题的、集成的、非易失的数据集合，为企业提供了一个统一的数据视图和分析环境，促进了数据资产的价值最大化。

基于大数据的数据仓库-数据仓库建模基本理论.pdf

12-24

在大数据环境下的数据仓库建模中，通常使用两种主要方法：ER实体模型和维度建模。ER模型基于实体、属性和关系的概念，用于描绘数据之间的联系，广泛应用于OLTP系统设计和数据仓库的底层建模。实体表示参与事务的主体...

大数据真实数仓项目完整版.zip

06-21

综上所述，这个"大数据真实数仓项目完整版"涵盖了大数据仓库设计的全过程，从理论到实践，从架构到实现，对于理解大数据处理和分析具有很高的学习价值。通过深入研究这个项目，不仅可以掌握大数据技术，还能提升在...

Python 如何调用讯飞星火大模型API

hello_1995的博客

09-21

707

讯飞星火是科大讯飞推出的一款先进的人工智能大模型，它具备强大的语言理解和知识问答能力，能够在多种场景中提供智能化服务。2024年6月27日，科大讯飞发布了讯飞星火大模型V4.0版本，全面对标GPT-4 Turbo。

Can‘t get Kerberos realm

bruce128的专栏

09-18

308

近期搞Ozone开发，需要走kerberos登陆，遇到了一个问题，花了很长时间解决。记录一下，跟网上能搜到的不大一样。

elasticsearch学习与实战应用

最新发布

cesske的博客

09-22

518

Elasticsearch的学习与实战应用是一个涉及多个方面的过程，以下将从学习路径、核心概念、实战应用及优化策略等方面进行详细介绍。提示：以下是本篇文章正文内容，下面案例可供参考综上所述，Elasticsearch的学习与实战应用是一个系统而复杂的过程，需要不断学习和实践。通过掌握基础知识、进阶知识和实战操作技巧，并结合优化策略来提高性能和可靠性，可以充分发挥Elasticsearch在数据处理和搜索分析方面的优势。

大数据技术原理与应用

m0_74161592的博客

09-20

667

1、大数据时代的特征，并结合生活实例谈谈带来的影响。（一）特征1、Volume 规模性：数据量大。2、Velocity高速性：处理速度快。数据的生成和响应快摩尔定律：每两年，数据量增加一倍1秒定律：响应时间时间控制在1秒以内3、Variety多样化：数据种类繁多。大数据是由结构化、非结构化、半结构化数据组成的，结构化数据仅占10%左右；非结构化数据，它们与人类信息密切相关；4、Value价值性：价值密度低。价值密度低，商业价值高；通过各类大量数据中挖掘有价值的信息；

ElasticSearch的搜索方式

gaoqiandr的博客

09-21

466

本文主要介绍的是Elasticsearch的基本搜索方式

阿里1688一面总结

weixin_44804108的博客

09-19

316

发布-订阅模式，即当实验发生变更时，就发出一个变更事件，然后，每台机器感知到这个变更事件后，清空本地缓存，触发reload操作。为了避免大量请求打到DB，可以对查询请求进行加锁，保证相同的实验只有一个线程去查，然后更新到缓存中，其他的请求，走缓存查询结果。运维团队将扩缩容事件投递在kafka中，容量平台起一个线程去订阅变更事件，当有事件时，更新公共缓存中的数据。kafka单broker的消息是可以保证顺序性的，但是kafka集群的消息实际是无序的。首先，面试官进行对业务进行介绍，然后，候选人进行自我介绍。

倒排索引（反向索引）

zhzjn的博客

09-20

983

倒排索引（Inverted Index）是搜索引擎和数据库管理系统中常用的一种数据结构，用于快速检索文档集合中的文档。在全文搜索场景中，倒排索引是一种非常高效的手段，因为它能够快速定位到包含特定关键词的所有文档。

大数据 数仓方法 pdf

06-06

大数据仓库方法pdf是指一本介绍大数据仓库相关方法的电子文档。大数据仓库是指用于存储、管理和分析大数据集的仓库。在大数据时代，数据量呈现爆炸式的增长，如何从数据中提取有价值的信息成为了一个重要的问题。 大数据仓库方法pdf从理论到实践提供了大量的方法和案例分析。它首先介绍了大数据仓库的基本概念和架构，包括数据采集、数据加工、数据存储和数据分析等四个方面。然后详细介绍了大数据仓库中的数据模型、维度建模和数据挖掘等技术手段。在实际应用中，大数据仓库方法pdf探讨了大数据仓库的应用场景，如金融、电商、医疗等行业。同时，它也提供了众多的仓库设计、数据清洗和数据可视化的方法和工具。总的来说，大数据仓库方法pdf涵盖了大数据仓库全生命周期的方方面面，包括了仓库的规划、设计、实现和维护。对于从事大数据仓库的相关工作人员和对大数据仓库感兴趣的人士都有着不可替代的参考价值。