2024年大数据最全一篇文章搞懂数据仓库:数据仓库的8个发展阶段,2024年最新写得太好了

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

三 集成阶段

四 确立阶段(1991)

五 数据集市(1994-1996)

六 争吵与混乱(1996-1997)

七 合并(1998-2001)

八 未来


一 概念阶段(1978-1988)

=================

数据仓库最早的概念可以追溯到20世纪70年代MIT的一项研究,该研究致力于开发一种优化的技术架构并提出这些架构的指导性意见。第一次,MIT的研究员将业务系统和分析系统分开,将业务处理和分析处理分成不同的层次,并采用单独的数据存储和完全不同的设计准则。同时,MIT的研究成果与80年代提出的信息中心(InformationCenter)相吻合:即把那些新出现的、不可以预测的、但是大量存在的分析型的负载从业务处理系统中剥离出来。但是限于当时的信息处理和数据存储能力,该研究只是确立了一个论点:这两种信息处理的方式差别如此之大,以至于它们只能采用完全不同的架构和设计方法。

二 萌芽阶段

======

在80年代中后期,作为当时技术最先进的公司,DEC已经开始采用分布式网络架构来支持其业务应用,并且DEC公司首先将业务系统移植到其自身的RDBMS产品:RdB。并且,DEC公司从工程部、销售部、财务部以及信息技术部抽调了不同的人员组建了新的小组,不仅研究新的分析系统架构,并要求将其应用到其全球的财务系统中。该小组结合MIT的研究结论,建立了TA2(TechnicalArchitecture2)规范,该规范定义了分析系统的四个组成部分:

  • 数据获取

  • 数据访问

  • 目录

  • 用户服务

其中的数据获取和数据访问目前大家都很清楚,而目录服务是用于帮助用户在网络中找到他们想要的信息,类似于业务元数据管理;用户服务用以支持对数据的直接交互,包含了其他服务的所有人机交互界面,这是系统架构的一个非常大的转变,第一次将交互界面作为单独的组件提出来。

三 集成阶段

======

全企业集成(EnterpriseIntergration,1988)同时,IBM也在处理信息管理不同方面的问题,其最烦人的问题是不断增加的信息孤岛,IBM的很多客户要面对很多分立系统的数据集成问题,而这些系统有不同的编码方式和数据格式。1988年,为解决全企业集成问题,IBM爱尔兰公司的BarryDevlin和PaulMurphy第一次提出了“信息仓库(InformationWarehouse)”的概念,将其定义为:“一个结构化的环境,能支持最终用户管理其全部的业务,并支持信息技术部门保证数据质量”,并在1991年在DECTA2的基础上把信息仓库的概念包含进去,并称之为VITAL规范(virtuallyintegratedtechnicalarchitecturelifecycle),将PC、图形化界面、面向对象的组件以及局域网都包含在VITAL里,并定义了85种信息仓库的组件,包括数据抽取、转换、有效性验证、加载、Cube开发和图形化查询工具等。但是IBM只是将这种领先的概念用于市场宣传,而没有付诸实际的架构设计。这是IBM有一个领域上创新后停止不前导致丧失其领先地位。因此,在90年代初期,数据仓库的基本原理、框架架构,以及分析系统的主要原则都已经确定,主要的技术,包括关系型数据存取、网络、C/S架构和图形化界面均已具备,只欠东风了。同时,在1988年-1991年,一些前沿的公司已经开始建立数据仓库。

四 确立阶段(1991)

============

企业级数据仓库(EDW,1991)1991年,BillInmon出版了其有关数据仓库的第一本书,这本书不仅仅说明为什么要建数据仓库、数据仓库能给你带来什么,更重要的是,Inmon第一次提供了如何建设数据仓库的指导性意见,该书定义了数据仓库非常具体的原则,包括:数据仓库是面向主题的(Subject-Oriented)、集成的(Integrated)、包含历史的(Time-variant)、相对稳定的(Nonvolatile)、面向决策支持的(DecisionSupport)面向全企业的(EnterpriseScope)最明细的数据存(AtomicDetail)数据快照式的数据获取(SnapShotCapture)这些原则到现在仍然是指导数据仓库建设的最基本原则,虽然中间的一些原则引发一些争论,并导致一些分歧和数据仓库变体的产生。

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 23
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 我可以回答这个问题。一个基于HIVE数据仓库的应用示例是在大数据环境中进行数据分析和处理。以下是一个简单的HIVE查询代码示例: SELECT COUNT(*) FROM table_name WHERE column_name = 'value'; 这个查询将返回表中特定列的值为'value'的行数。这是一个简单的示例,但HIVE可以进行更复杂的查询和数据处理。 ### 回答2: Hive数据仓库是基于Hadoop的一个数据仓库工具,用于进行大数据的分析和查询。下面是一个基于Hive数据仓库的应用示例和代码: 示例:通过Hive进行电商销售数据分析 1. 数据准备: 假设我们有一家电商公司,我们的数据包括订单表(Order)和商品表(Product)。订单表包含订单ID、用户ID、商品ID和订单金额等字段;商品表包含商品ID、名称、价格和库存等字段。 2. 创建Hive表: 首先,我们需要在Hive中创建订单表和商品表的数据表。假设我们已经将数据导入Hadoop分布式文件系统(HDFS),可以使用以下代码创建表: ``` CREATE TABLE order ( order_id int, user_id int, product_id int, amount double ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE; CREATE TABLE product ( product_id int, name string, price double, stock int ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE; ``` 3. 加载数据: 使用以下代码将数据从HDFS加载到Hive表中: ``` LOAD DATA INPATH '/path/to/order_data.txt' OVERWRITE INTO TABLE order; LOAD DATA INPATH '/path/to/product_data.txt' OVERWRITE INTO TABLE product; ``` 4. 分析查询: 现在我们可以使用Hive进行销售数据分析。以下是一些基本查询的示例: 1) 统计每个用户的订单数和总订单金额: ``` SELECT user_id, count(order_id) as order_count, sum(amount) as total_amount FROM order GROUP BY user_id; ``` 2) 查询库存不足的商品: ``` SELECT name, stock FROM product WHERE stock < 10; ``` 3) 查询销售额最高的前10个商品: ``` SELECT p.name, sum(o.amount) as sales_amount FROM order o JOIN product p ON o.product_id = p.product_id GROUP BY p.name ORDER BY sales_amount DESC LIMIT 10; ``` 以上是一个简单的电商销售数据分析的示例。通过Hive数据仓库,我们可以轻松地对大数据进行分析和查询,并从中发现有用的信息和趋势。 请注意,以上示例中的代码仅为演示目的,并不代表真实环境中的详细实现。实际应用中,还需要根据具体需求设计更复杂的数据模型和查询语句。 ### 回答3: 在大数据环境中,Hive是一个非常常见和重要的数据仓库工具之一。它允许我们在大规模数据集上进行数据处理和分析,并可以使用SQL-like查询语言进行数据查询。 下面是一个基于Hive数据仓库的应用示例: 假设我们有一个大型电商平台,拥有数百万用户和数千万商品。我们希望通过分析用户行为和商品信息,为用户提供个性化的推荐商品。 首先,我们将用户行为数据和商品信息数据导入到Hive数据仓库中。用户行为数据包括用户ID、商品ID、点击次数、购买数量等信息;商品信息数据包括商品ID、商品名称、商品类别等信息。 接下来,我们通过Hive编写一段代码来进行数据分析和推荐算法: ``` -- 创建用户行为临时表 CREATE TABLE user_behavior_temp ( user_id INT, item_id INT, click_cnt INT, purchase_cnt INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; -- 导入用户行为数据 LOAD DATA LOCAL INPATH 'user_behavior_data.txt' INTO TABLE user_behavior_temp; -- 创建商品信息临时表 CREATE TABLE item_info_temp ( item_id INT, item_name STRING, item_category STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; -- 导入商品信息数据 LOAD DATA LOCAL INPATH 'item_info_data.txt' INTO TABLE item_info_temp; -- 统计每个商品的销售量(点击次数+购买数量) CREATE TABLE item_sale_cnt AS SELECT a.item_id, a.item_name, a.item_category, sum(b.click_cnt + b.purchase_cnt) as sale_cnt FROM item_info_temp a JOIN user_behavior_temp b ON a.item_id = b.item_id GROUP BY a.item_id, a.item_name, a.item_category; -- 根据销售量进行商品推荐 SELECT item_name, item_category FROM item_sale_cnt ORDER BY sale_cnt DESC LIMIT 10; ``` 以上代码首先创建了两个临时表,然后分别导入了用户行为数据和商品信息数据。接下来,通过JOIN操作将两个表进行关联,计算出每个商品的销售量。最后,根据销售量进行排序,并选择销售量最高的前十个商品作为推荐结果。 这只是一个简单的示例,实际应用中可能会涉及更复杂的数据处理和分析操作。不过通过Hive的强大功能,我们可以很方便地在大数据环境中进行各种数据仓库应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值