自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Hive的基本命令操作

熟练运用命令,能让用户更好地了解并管理数据,可以让用户更高效地处理数据。这些常见命令用于管理数据库、表、数据以及执行查询和分析操作。显示表的详细信息(表的存储信息、表的属性等)显示表的详细信息(列的注释、位置等)列的升序顺序进行排序。列值从小到大排列的所有行数据。按指定列对数据进行排序,按照。按指定列对数据进行分组。显示数据库中的所有表。显示表的所有分区信息。

2024-06-15 01:31:45 112

原创 hive分层架构

在DW层处理完成的数据通过工具进行可视化加工,当数据处理完成存储在Hive中,处理完成的数据可以通过ETL工具推送到关系型数据库中(例如Mysql),一般情况下,数据都有一个储存周期,400天左右,我们使用的可视化-工具平台(基于关系型数据库Mysql储存时间400天左右),可以进行同比(年)、环比(月),这些数据形成一个数据集(结果),最后一步就是根据业务需求来配置报表。为数据仓库层,PDW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。

2024-06-15 01:15:40 620

原创 内部表和外部表区别

Hive外部表:外部表的数据不是Hive拥有或者管理的,只管理元数据的生命周期。删除外部表时只会删除元数据,而不会删除实际数据(源数据)。1、在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并不是由它自己来管理的!所以,在大多数情况内部表和外部表没有太多的区别,如果所有处理都需要由Hive完成,那么你应该创建表,否则使用外部表较为好。Hive完全管理表(元数据和数据)的生命周期,类似于RDBMS的表。而删除外部表的时候,Hive仅仅删除外部表的元数据,数据是不会删除的。

2024-06-15 01:15:32 151

原创 hive元数据的概念

元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据的存储主要有两种方式:第一种是使用hive自带的derby数据库进行元数据的存储;第二种是使用mysql数据库来进行hive元数据的存储;元数据包括表的属性、表的名称、表的列、分区及其属性以及表数据所在的目录等。hive表包含内部表和外部表。

2024-06-15 01:15:25 156

原创 数据仓库概述

不一致的数据转换:这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个用户在用户管理系统的编码是 XX0001 ,而在订单系统的编码是 YY0001 ,这样在抽取过来之后统一转换成一个编码;数据粒度的转换:业务系统一般存储粒度较小的数据,而数据仓库中的数据是用来分析的,不需要粒度很小的数据,一般情况下,会将业务系统数据按照数据仓库粒度进行聚合;元数据是整个数据仓库的核心部件,元数据管理器是企业级数据仓库中的关键部件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。

2024-06-15 01:15:07 555 1

原创 hive的数据存储

3.Hive元数据释对真实数据的描述,通常单独储存在MySQL中Hive除了两种命令行开发工具(CLI和Beeline) 之外还有许多第三方工具(HUE、 Ambari, zeppelin)。为了有效地对真实数据进行管理,根据粒度大小,Hive 将真实数据划分为如下数据单元。Hive是Hadoop上处理结构化数据的数据仓库基础工具,用来处理存储在Hadoop上的海量数据。RCFILE 是可分割的文件格式,即在每个行组中,元数据头部 (Metadata Header)分区的作用是提高查询的效率。

2024-06-15 01:14:32 764

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除