自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 数据仓库学习笔记八

窗口的定义由窗口子句“[<window_ clause>]" 来实现,用于进一步细分分组结果并应用分析函数。窗口子句不支持的函数包括: RANK、NTILE、DENSE RANK、CUME DIST、PERCENT RANK、LEAD及LAG。窗口分为两类:行类型窗口(行窗口)与范围类型窗口(范围窗口)。

2024-05-22 19:27:59 256 1

原创 数据仓库学习笔记七

Hive提供了4种排序方式: ORDER BY、SORT BY、DISTRIBUTE BY及CLUSTERBY。

2024-05-22 18:59:23 497 1

原创 数据仓库学习笔记六

Hive SELECT 语句用于对表的查询,即按照规定的语法规则从表中选取数据,并将查询结果保存在结果表中。where子句:where条件必须是布尔表达式,用于过滤结果集。ALL,DISTIVCT子句:ALL与DISTINCT选项表示是否返回重复行,默认是ALL,即返回匹配的行。大多数情况下使用DISTINCT子句指出在结果集重复出现的行。LIMIT子句:LIMIT子句用于限制SELECT语句返回的行数,其后的整数型参数表示共返回多少行。

2024-05-22 18:28:27 464 1

原创 数据仓库学习笔记五

无论使用哪种模式,Hive客户端均须首先连接metastore服务,然后由metastore服务去访问数据库以完成元数据的存取。Hive中有两类数据:真实数据和元数据。和关系型数据库一一样, 元数据可以看作是描述数据的数据,包括Hive表的数据库名、表名、字段名称与类型、分区字段与类型等。本地模式下,每个客户端可启动多个Hive副本,每个Hive都内置一个 metastore服务,这样明显会。在远程模式下,Hive 服务和metastore服务可以在不同的进程中,也可以在不同的主机中,这样便。

2024-04-18 19:42:32 597

原创 数据仓库学习笔记四

内部表(managed table): 未被external修饰的表,也叫管理表。外部表(external table):被external修饰的表。内部表&外部表的区别: 内部表:删除表会删除表的元数据(metadata)和表数据(data)。外部表:删除表会删除表的元数据(metadata),但不会删除表数据(data)。数据管理方式: 数据(data)都存储在HDFS上,内部表由Hive自身管理,外部表数据由HDFS管理;元数据(metadata)都存储在mysql上,由mysql管理。

2024-03-28 16:08:46 245 1

原创 数据仓库学习笔记三

外部表的真实数据不被Hive管理,即当删除一-张内部表时,元数据以及HDFS上的真实数据均被删除,而删除外部表则只会删除元数据而不会删除真实数据。RCFILE遵循“先水平划分,再垂直划分-的设计理念:首先把Hive表水平切分成多个行组,保证同一行的数据位于同一节点, 其次在行组内按照“列”垂直切分,实现列与列的数据在磁盘上呈现为连续的存储块。Hive中的数据分为真实数据与元数据,一般来说Hive存储格式是指真实数据的存储格式。分区的作用是提高查询的效率,其在HDFS中表现为表目录下的子目录。

2024-03-14 19:44:29 934 2

原创 数据仓库学习笔记二

Hive中的数据分为两部分,一部分是真实数据,一般存放在HDFS中:另一部分是真实数据的元数据,单独存储在关系型数据库中,如Derby、MySQL等。元数据对于Hive十分重要,因此Hive把Metastore服务独立出来,从而解耦Hive服务和Metastore服务,以保证Hive运行的健壮性。CLI是最基础的连接方式,使用"hive"命令连接。总之,当我们使用Hive时,操作接口采用类SQL语法,提高了快速开发的能力,避免了编写复杂的MapReduce任务,减少了开发人员的学习成本,而且扩展很方便。

2024-03-08 13:48:57 1130 1

原创 数据仓库学习笔记一

数据仓库(Data Warehouse)是一个用于存储和管理来自多个不同来源的大量结构化数据的系统。它是组织中的决策支持系统(DSS)的核心组件,用于支持复杂的数据分析、商业智能(BI)、报表和数据挖掘任务。主题导向:数据仓库中的数据是围绕组织的关键业务领域或主题(如销售、财务、市场等)进行组织的。集成性:数据来自不同来源且经过清洗、转换和集成,以保证数据的一致性和质量。非易失性:一旦数据进入数据仓库,就很少被修改,确保数据的稳定性和历史数据的可追溯性。时间变化。

2024-03-01 10:00:54 893 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除