自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Hive元数据概念与表的结构

素养目标:增强获取新知识、新技能、新方法的意识。Hive元数据存储在RDBMS中,有三种存储模式。能力目标:对数据仓库的元数据有一个清晰的认识。包括Hive表的数据库名、表名、字段名与类型等。元数据存储在Derby数据库,是默认的存储方式。在同一数据库目录下只能有一个Hive客户端使用。远程服务模式,使用远程元数据服务访问数据库。单用户模式,使用内置Derby数据库。多用户模式,使用本地MySQL数据库。单用户存储模式适合在测试环境中使用。知识目标:了解Hive元数据。元数据是描述真实数据的数据。

2024-06-28 14:05:51 124

原创 Hive的内部表与外部表

内部表被drop后,表的data和metadata都会被删除;外部表被drop后,表的metadata会被删除,但是data不会被删除。如果不小心删掉外部表,重新建表location到数据存放在HDFS的相应路径即可。(1)外部表:因其指删除表时不会删除HDFS上的数据,安全性相对较高,且指定目录的特性,适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。(2)内部表:对原始数据或比较重要的中间数据进行建表存储。1. Hive的内部表操作。2. Hive的外部表操作。

2024-06-28 14:01:52 150

原创 数据仓库--hive(hive产生背景和架构设计)

Hive服务端,客户端必须通过服务端与Hive交互,主要包括CLI、HiveServer、HiveWebInterface等组件。包含Hive的数据存储与计算的内容,Hive元数据存储在RDBMS中,数据存储在HDFS中,计算由MR完成。Hive客户端,可通过Java、Python等语言连接Hive并进行与RDBMS类似的SQL查询操作。Hive支持HDFS与HBase上的ad-hoc(点对点模式)延展性,Hive支持自定义函数,用户可根据需求自定义。Hive与SQL有着相似的语法,大大提高开发效率。

2024-06-28 13:55:43 195

原创 数据仓库概述

然而,本地数据仓库的弹性较低,需要企业通过复杂的预测来确定如何扩展数据仓库,以满足未来需求。数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。早期的数据仓库需要大量冗余:大多数企业为了满足各种用户的需求而采用多个 DSS 环境,虽然各个 DSS 环境使用的数据大部分相同,但通常还是要分别执行数据收集、清理和集成。沙盒:沙盒可提供一个专有的安全区域,帮助企业快速、非正式地探索新的数据集或新的数据分析方式,而无需遵守或遵循数据仓库的正式规则和协议。

2024-06-28 13:50:20 327

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除