大数据实践学习第三天

目录

一、数据仓库

数据库与数据仓库的区别

数仓的分层架构

ETL和ELT

二、数据库操作

三、数据表操作

1、表操作语法和数据类型

2、外部表

3、内部表

4、查看/修改表

5、数据分隔符

一、数据仓库

       分析型处理(数据仓库),叫联机分析处理OLAP,也可以称为面向专业分析 人员进行数据分析,通常进行查询分析操作,一般针对某些主题的历史数据进行分析,支持管理决策。

        操作型处理(数据库),叫联机事务处理OLTP,也可以称面向用户交易的 处理系统,它是针对具体业务在数据库联机的日常操区别作,通常进行增删改查操作。

数据库与数据仓库的区别

         数据库是面向事务的设计,数据仓库是面向主题设计的。

         数据库一般存储业务数据,数据仓库存储的一般是历史数据。 

         数据库是为捕获数据而设计,数据仓库是为分析数据而设计

数仓的分层架构

         数据仓库架构可分为三层——源数据层、数据仓库层、数据应用层:

源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据, 不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。

数据仓库层(DW):也称为细节层,DW层的数据应该是一致的、准确的、干 净的数据,即对源系统数据进行了清洗(去除了杂质后的数据。

数据应用层(DA或APP):前端应用直接读取的数据源;根据报表、专题分析 需求而计算生成的数据。

ETL和ELT

ETL: 先从数据源池中抽取数据,数据保存在临时暂存数据库中(ODS)。然后执行转换操作,将数 据结构化并转换为适合目标数据仓库系统的形式,然后将结构化数据加载到数据仓库中进行分析。

ELT: 从数据源中抽取后立即加载。没有专门的临时数据库(ODS),这意味着数据会立即加载到单 一的集中存储库中,数据在数据仓库系统中直接进行转换,然后进行分析

二、数据库操作

• 创建数据库  create database if not exists 库名;

• 查看数据库详细信息  desc database 库名;

• 创建数据库并指定hdfs存储位置   create database 库名 location '路径'; 使用location关键字,可以指定数据库在HDFS的存储路径。

• 删除一个空数据库,如果数据库下面有数据表,那么就会报错 drop database myhive;

• 强制删除数据库,包含数据库下面的表一起删除 drop database myhive2 cascade;

三、数据表操作

1、表操作语法和数据类型

• EXTERNAL,创建外部表

• PARTITIONED BY, 分区表

• CLUSTERED BY,分桶表

• STORED AS,存储格式

• LOCATION,存储位置

2、外部表

1. 创建外部表语法:  create external table [if not exists] 内部表名(

                                                                 字段名 字段类型 , ...

                                                                 )...;

2. 外部表类型:  EXTERNAL_TABLE

3. 删除外部表效果: 仅仅是删除元数据(表的信息),不会删除数据本身

3、内部表

1. 创建内部表语法: create table [if not exists] 内部表名(

                                                        字段名 字段类型 , ...

                                                        )...;

2. 内部表类型: MANAGED_TABLE

3. 删除内部表效果: 直接删除元数据(metadata)及存储数据

4、查看/修改表

查看所有表: show tables;

查看建表语句: show create table 表名;

查看表结构信息: desc 表名;

查看表格式化信息: desc formatted 表名;

修改表名: alter table 旧表名 rename to 新表名;

修改表路径: alter table 表名 set location 'hdfs中存储路径'; 注意: 建议使用默认路径

修改表属性: alter table 表名 set tblproperties ('属性名'='属性值');注意: 经常用于内外部表切换

5、数据分隔符

        创建hive基础表的时候,默认的数据间分隔符是:\001(^A)是一种特殊字符,是ASCII值 在Notepad++文本编辑器中是显示为SOH的。

  • 20
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
推荐,最强大数据学习与最佳实践资料合集,基础+架构+治理+案例,共100份。 一、基础篇 快手EB级HDFS挑战与实践 Hive任务开发规范 一文看懂Hadoop生态圈 资料-CentOS7搭建Hadoop-2.7.7集群 ClickHouse官方中文文档 ETL流程、数据流图及ETL过程解决方案 Google-MapReduce中文版_1.0 Hadoop安装及分布式部署 Hadoop精选面试题和MapReduce编程企业级编程实践 HDFS-part2-原理详解 HDFS核心内容及命令-2020 hive安装 hive语法和常用函数 Kafka安装 kylin安装 mapreduce调优指南 sqoop安装 二、架构篇 Flink-1.11 Hive集成与批流一体 ClickHouse在苏宁用户画像场景的实践 优酷大数据 OLAP 技术选型 阿里数据湖选型 各种系统架构图与详细说明 关于BI工具选型的参考依据 Apache Doris在京东搜索实时OLAP中的应用 ClickHouse官方中文文档 ClickHouse原理解析与应用实践 Doris竞品对比 Doris在美团外卖数仓架构中业务实践与改进思路 DorisDB原理剖析 和应用实践篇2021 Flink 流批一体的技术架构以及在阿里的实践 Flink实时仓库实践 Hadoop开源相关,Flink,Kylin等集群搭建2021 KylinCloud+Hudi实践 三、数仓篇 传统数仓与大数据数仓区别 模板-事实表梳理 模板-维度梳理 模板-业务梳理 模板-指标体系梳理 模板1-数据仓库项目计划 模板2-命名规范 模板3_访谈提问和沟通记录单模板 模板4_公共数据资源管理调研模板 模板5_公共数据资源管理分析模板 模板6-报表需求梳理 内部分享-基于 Hudi 和 Kylin 构建准实时高性能数据仓库 商业银行数据仓库系统V2.0 数据仓库建设方案 数据仓库建设规范模板 数据仓库整体设计方案模板 Hadoop构建数据仓库实践 四、治理篇 快手从模型规范开始的数据治理实践 第12章元数据管理-DAMA-DMBOK:数据管理知识体系 权限管理设计方案 数据安全模板-访问权限梳理表 数据治理服务解决方案 数据治理及数据资产化创新实践-京东 万振龙:数据治理与大数据平台设计 主数据管理实践白皮书(1.0版) Apache atlas使用说明文档 atlas安装 CDH启用kerberos身份认证和sentry权限管理 DAMA-部委级数据治理项目经验分享 GrowingIO 2020指标体系与数据采集 GrowingIO公开课:搭建业务+数据一体化的指标体系 IBM 数据治理统一流程 ISO38500 IT治理国际标准 ISO_IEC_38500_2008_version_PDF 五、案例篇 字节Apache Flink在字节跳动的实践 Hudi on Flink在顺丰的实践应用-蔡适择 滴滴Flink在滴滴出行的应用与实践 阿里基于Flink的实时计算平台 菜鸟在物流场景中基于Apache Flink的流计算实践 腾讯clickhouse实践 Clickhouse玩转每天千亿数据-趣头条 微博基于Flink的机器学习实践 快手稳定性体系建设 快手元数据平台化建设及应用场景 快手指标规范化及OneService平台化实战 Apache Flink 在美团的实践与应用 快手服务治理平台+KESS+的设计理念和实战 快手数据中台建设:大数据服务化之路 快手离线数据全链路分级保障平台化建设 快手万亿级实时 OLAP 平台的建设与实践 ClickHouse在快手的大规模应用与架构改进 美团点评酒旅数据仓库建设实践 美团酒旅数据治理实践 美团外卖为何使用Doris创建数据仓库 内部分享-基于 Hudi 和 Kylin 构建准实时高性能数据仓库 实时数据产品实践——美团大交通战场沙盘 ClickHouse在苏宁用户画像场景的实践 腾讯云clickhouse性能调优实践 融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系 ClickHouse 在头条的技术演进 Doris的用户画像人群应用-会议组 Doris在美团外卖数仓架构中业务实践与改进思路 Flink 在 OPPO 的平台研发与应用实践 Flink实时仓库实践 Flink在滴滴的应用实践
理解大数据实践大数据 理解大数据-实践大数据全文共48页,当前为第1页。 内容 对大数据的理解 拓尔思大数据产品布局和应用实践 理解大数据-实践大数据全文共48页,当前为第2页。 反对派认为,我们现在处在一个盲目的大数据崇拜时代 理解大数据-实践大数据全文共48页,当前为第3页。 大数据产生的背景 数据的爆发式增长和社会化趋势,新摩尔定律 大数据已经成为一种自然资源 机器数据日益重要 大数据不被利用就是成本 理解大数据-实践大数据全文共48页,当前为第4页。 大数据产生的背景 现有的商业软件难以处理大数据的规模和复杂性 获取(capture) 存贮(storage) 搜索(search) 分享(sharing) 分析(analysis) 可视化(visualization) 理解大数据-实践大数据全文共48页,当前为第5页。 奥巴马大数据战略 2012年3月29日,白宫发布美国政府的大数据计划 通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究 理解大数据-实践大数据全文共48页,当前为第6页。 大数据的4V特性 体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 理解大数据-实践大数据全文共48页,当前为第7页。 对大数据的理解 大数据比云计算更为落地 大数据不仅仅是"大" 软件是大数据的引擎 大数据的应用不仅仅是精准营销 管理大数据"易",理解大数据"难" 理解大数据-实践大数据全文共48页,当前为第8页。 1、大数据比云计算更为落地 商业模式驱动 应用需求驱动 云计算本身也是大数据的一种业务模式 理解大数据-实践大数据全文共48页,当前为第9页。 2、大数据不仅仅是"大" 多大? PB 级 比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值 理解大数据-实践大数据全文共48页,当前为第10页。 3、软件是大数据的引擎 和数据中心(Data Center) 一样,软件是大数据的驱动力,软件改变世界 理解大数据-实践大数据全文共48页,当前为第11页。 大数据生态:软件是引擎 理解大数据-实践大数据全文共48页,当前为第12页。 4、大数据的应用不仅仅是精准营销 通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景 消费行业 金融服务 食品安全 医疗卫生 军事 交通环保 电子商务 气象 理解大数据-实践大数据全文共48页,当前为第13页。 5、管理大数据"易"理解大数据"难" 虽然大数据是一个重大问题,真正的问题是让大数据更有意义 目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心 非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等 理解大数据-实践大数据全文共48页,当前为第14页。 拓尔思大数据产品布局 TRS机器数据挖掘引擎 TRS SMAS 舆情云服务 TRS 大数据管理系统V7.0 理解大数据-实践大数据全文共48页,当前为第15页。 TRS 大数据管理系统发展历程 TRS 全文数据库 TRS 非结构化数据库 TRS 大数据 管理系统 理解大数据-实践大数据全文共48页,当前为第16页。 TRS 大数据管理系统V7.0 理解大数据-实践大数据全文共48页,当前为第17页。 TRS 大数据管理系统V7.0 分布式并行计算、多副本机制、没有单点的高可靠体系架构,兼容Hadoop标准 支持结构化、半结构化、非结构化数据的管理和搜索 支持实时及用户行为数据的高效管理和分析 支持PB级的海量数据管理 支持海量用户的高并发访问(千万级用户、万级并发) 充分释放硬件的潜力(多核、大内存等) 大规模部署的自动化和运行状态监控 创新的多检索引擎机制,提供开放的二次开发接口 理解大数据-实践大数据全文共48页,当前为第18页。 数据备份 大数据管理系统 数据存储 开发接口 基于Hadoop的数据分析 CKM文本挖掘与数据挖掘 关联规则与序列模式挖掘 推荐引擎的离线分析 MapReduce 数据库监控 机器
内容 对大数据的理解 xxx大数据产品布局和应用实践 理解大数据-实践大数据(1)全文共46页,当前为第1页。 反对派认为,我们现在处在一个盲目的大数据崇拜时代 理解大数据-实践大数据(1)全文共46页,当前为第2页。 大数据产生的背景 数据的爆发式增长和社会化趋势,新摩尔定律 大数据已经成为一种自然资源 机器数据日益重要 大数据不被利用就是成本 理解大数据-实践大数据(1)全文共46页,当前为第3页。 大数据产生的背景 现有的商业软件难以处理大数据的规模和复杂性 获取(capture) 存贮(storage) 搜索(search) 分享(sharing) 分析(analysis) 可视化(visualization) 理解大数据-实践大数据(1)全文共46页,当前为第4页。 奥巴马大数据战略 2012年3月29日,白宫发布美国政府的大数据计划 通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究 理解大数据-实践大数据(1)全文共46页,当前为第5页。 大数据的4V特性 体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 理解大数据-实践大数据(1)全文共46页,当前为第6页。 对大数据的理解 大数据比云计算更为落地 大数据不仅仅是"大" 软件是大数据的引擎 大数据的应用不仅仅是精准营销 管理大数据"易",理解大数据"难" 理解大数据-实践大数据(1)全文共46页,当前为第7页。 1、大数据比云计算更为落地 商业模式驱动 应用需求驱动 云计算本身也是大数据的一种业务模式 理解大数据-实践大数据(1)全文共46页,当前为第8页。 2、大数据不仅仅是"大" 多大? PB 级 比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值 理解大数据-实践大数据(1)全文共46页,当前为第9页。 3、软件是大数据的引擎 和数据中心(Data Center) 一样,软件是大数据的驱动力,软件改变世界 理解大数据-实践大数据(1)全文共46页,当前为第10页。 大数据生态:软件是引擎 理解大数据-实践大数据(1)全文共46页,当前为第11页。 4、大数据的应用不仅仅是精准营销 通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景 消费行业 金融服务 食品安全 医疗卫生 军事 交通环保 电子商务 气象 理解大数据-实践大数据(1)全文共46页,当前为第12页。 5、管理大数据"易"理解大数据"难" 虽然大数据是一个重大问题,真正的问题是让大数据更有意义 目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心 非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等 理解大数据-实践大数据(1)全文共46页,当前为第13页。 xxx大数据产品布局 TRS机器数据挖掘引擎 TRS SMAS 舆情云服务 TRS 大数据管理系统V7.0 理解大数据-实践大数据(1)全文共46页,当前为第14页。 TRS 大数据管理系统发展历程 TRS 全文数据库 TRS 非结构化数据库 TRS 大数据 管理系统 理解大数据-实践大数据(1)全文共46页,当前为第15页。 TRS 大数据管理系统V7.0 理解大数据-实践大数据(1)全文共46页,当前为第16页。 TRS 大数据管理系统V7.0 分布式并行计算、多副本机制、没有单点的高可靠体系架构,兼容Hadoop标准 支持结构化、半结构化、非结构化数据的管理和搜索 支持实时及用户行为数据的高效管理和分析 支持PB级的海量数据管理 支持海量用户的高并发访问(千万级用户、万级并发) 充分释放硬件的潜力(多核、大内存等) 大规模部署的自动化和运行状态监控 创新的多检索引擎机制,提供开放的二次开发接口 理解大数据-实践大数据(1)全文共46页,当前为第17页。 数据备份 大数据管理系统 数据存储 开发接口 基于Hadoop的数据分析 CKM文本挖掘与数据挖掘 关联规则与序列模式挖掘 推荐引擎的离线分析 MapRed
⼤数据⼯程师学习计划 申明:本⽂旨在为普通程序员(Java程序员最佳)提供⼀个⼊门级别的⼤数据技术学习路径,不适⽤于⼤数据⼯程师的进阶学习,也不适⽤ 于零编程基础的同学。 前⾔ ⼀、背景介绍 本⼈⽬前是⼀名⼤数据⼯程师,项⽬数据50T,⽇均数据增长20G左右,个⼈是从Java后端开发,经过3个⽉的业余⾃学成功转型⼤数据⼯ 程师。 ⼆、⼤数据介绍 ⼤数据本质也是数据,但是⼜有了新的特征,包括数据来源⼴、数据格式多样化(结构化数据、⾮结构化数据、Excel⽂件、⽂本⽂件 等)、数据量⼤(最少也是TB级别的、甚⾄可能是PB级别)、数据增长速度快等。 如果你对⼤数据开发感兴趣,想系统学习⼤数据的话,可以加⼊⼤数据技术学习交流扣群:数字4583+数字45782,私信管理员即可免费 领取开发⼯具以及⼊门学习资料 针对以上主要的4个特征我们需要考虑以下问题: 数据来源⼴,该如何采集汇总?对应出现了Sqoop,Cammel,Datax等⼯具。 数据采集之后,该如何存储?对应出现了GFS,HDFS,TFS等分布式⽂件存储系统。 由于数据增长速度快,数据存储就必须可以⽔平扩展。 数据存储之后,该如何通过运算快速转化成⼀致的格式,该如何快速运算出⾃⼰想要的结果? 对应的MapReduce这样的分布式运算框架解决了这个问题;但是写MapReduce需要Java代码量很⼤,所以出现了Hive,Pig等将SQL转 化成MapReduce的解析引擎; 普通的MapReduce处理数据只能⼀批⼀批地处理,时间延迟太长,为了实现每输⼊⼀条数据就能得到结果,于是出现了Storm/JStorm这 样的低时延的流式计算框架; 但是如果同时需要批处理和流处理,按照如上就得搭两个集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于 管理,所以出现了Spark这样的⼀站式的计算框架,既可以进⾏批处理,⼜可以进⾏流处理(实质上是微批处理)。 ⽽后Lambda架构,Kappa架构的出现,⼜提供了⼀种业务处理的通⽤架构。 为了提⾼⼯作效率,加快运速度,出现了⼀些辅助⼯具: Ozzie,azkaban:定时任务调度的⼯具。 Hue,Zepplin:图形化任务执⾏管理,结果查看⼯具。 Scala语⾔:编写Spark程序的最佳语⾔,当然也可以选择⽤Python。 Python语⾔:编写⼀些脚本时会⽤到。 Allluxio,Kylin等:通过对存储的数据进⾏预处理,加快运算速度的⼯具。 以上⼤致就把整个⼤数据⽣态⾥⾯⽤到的⼯具所解决的问题列举了⼀遍,知道了他们为什么⽽出现或者说出现是为了解决什么问题,进⾏学 习的时候就有的放⽮了。 正⽂ ⼀、⼤数据相关⼯作介绍 ⼤数据⽅向的⼯作⽬前主要分为三个主要⽅向: ⼤数据⼯程师 数据分析师 ⼤数据科学家 其他(数据挖掘等) ⼆、⼤数据⼯程师的技能要求 附上⼤数据⼯程师技能图: 必须掌握的技能11条 Java⾼级(虚拟机、并发) Linux 基本操作 Hadoop(HDFS+MapReduce+Yarn ) HBase(JavaAPI操作+Phoenix ) Hive(Hql基本操作和原理理解) Kafka Storm/JStorm Scala Python Spark (Core+sparksql+Spark streaming ) 辅助⼩⼯具(Sqoop/Flume/Oozie/Hue等) ⾼阶技能6条 机器学习算法以及mahout库加MLlib R语⾔ Lambda 架构 Kappa架构 Kylin Alluxio 三、学习路径 假设每天可以抽出3个⼩时的有效学习时间,加上周末每天保证10个⼩时的有效学习时间; 3个⽉会有(213+4210)3=423⼩时的学习时间。 第⼀阶段(基础阶段) 1)Linux学习(跟鸟哥学就ok了)-----20⼩时 Linux操作系统介绍与安装。 Linux常⽤命令。 Linux常⽤软件安装。 Linux⽹络。 防⽕墙。 Shell编程等。 2)Java ⾼级学习(《深⼊理解Java虚拟机》、《Java⾼并发实战》)---30⼩时 掌握多线程。 掌握并发包下的队列。 了解JMS。 掌握JVM技术。 掌握反射和动态代理。 3)Zookeeper学习 Zookeeper分布式协调服务介绍。 Zookeeper集群的安装部署。 Zookeeper数据结构、命令。 Zookeeper的原理以及选举机制。 第⼆阶段(攻坚阶段) 4)Hadoop (《Hadoop 权威指南》)---80⼩时 HDFS HDFS的概念和特性。 HDFS的shell操作。 HDFS的⼯作机制。 HDFS的Java应⽤开发。 MapReduce 运⾏WordCount⽰例程序。 了解MapReduce内部

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值