什么是数仓

什么是数据仓库?

数据仓库全称为Data Warehouse,简称DW。它是面向主题的,集成的,相对稳定的,反映历史变化的数据存储集合,用于支撑企业的分析报告与决策。

数仓的输入与输出

 

数仓的几个特点是什么?

  • 主题性 

将不同数据源的数据在一个较高抽象层次上做整合,数据围绕某一主题进行汇总,如电商主题有:订单、流量、商品、用户等 。

  • 集成性

数仓中的数据来源于不同数据源的集成(如:tob业务系统数据源,toc业务系统数据源,erp业务系统数据源),且这些数据源的存储方式可能不同(如:mysql、orcale、hive等),因此需要做etl操作整合不同的数据源。

  • 稳定性

数仓中的数据保存的是一些列历史快照数据,不允许数据被修改,使用人员只能查询或分析数据。

  • 时变性

数仓会定期接受新的集成数据,反映最新的数据变化。

什么是OLAP?  什么是OLTP?

OLTP:on-line transaction processing,联机事务处理,需要考虑并发与事务

OLAP:on-line Analytical processing,联机分析处理,主要是面向分析,会产生大量的查询,一般很少涉及增删改

什么是拉链表?

在某些情况下,我们需要保留历史状态,使用拉链表可以在 保留历史状态的同时节省空间

什么是ETL?

  • 数据的抽取

数据的抽取,就是把数据从数据源读出来

  • 数据的转换

数据类型转换与脏数据清洗

  • 数据的加载

处理后的数据加载到目标处,如数据仓库

数仓ETL流程

 

已标记关键词 清除标记
一、课程简介<br /> <br /> 随着技术的飞速发展,经过多年的数据积累,各互联网公司已保存了海量的原始数据和各种业务数据,所以数据仓库技术是各大公司目前都需要着重发展投入的技术领域。数据仓库是面向分析的集成化数据环境,为企业所有决策制定过程,提供系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。<br /> <br /> 二、课程内容<br /> <br /> 本次精心打造的数仓项目的课程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。<br /> <br /> <br /> 三、课程目标<br /> <br /> 本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。<br /> <br /> 四、课程亮点<br /> 本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。<br /> <br /> <br /> <div> <br /> </div>
相关推荐
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页