m0_69432135
码龄3年
关注
提问 私信
  • 博客:2,840
    2,840
    总访问量
  • 6
    原创
  • 1,847,283
    排名
  • 27
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:重庆市
  • 加入CSDN时间: 2022-04-10
博客简介:

m0_69432135的博客

查看详细资料
  • 原力等级
    当前等级
    0
    当前总分
    18
    当月
    0
个人成就
  • 获得27次点赞
  • 内容获得1次评论
  • 获得29次收藏
创作历程
  • 6篇
    2024年
成就勋章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive的基本命令操作

熟练运用命令,能让用户更好地了解并管理数据,可以让用户更高效地处理数据。这些常见命令用于管理数据库、表、数据以及执行查询和分析操作。显示表的详细信息(表的存储信息、表的属性等)显示表的详细信息(列的注释、位置等)列的升序顺序进行排序。列值从小到大排列的所有行数据。按指定列对数据进行排序,按照。按指定列对数据进行分组。显示数据库中的所有表。显示表的所有分区信息。
原创
发布博客 2024.06.15 ·
157 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hive分层架构

在DW层处理完成的数据通过工具进行可视化加工,当数据处理完成存储在Hive中,处理完成的数据可以通过ETL工具推送到关系型数据库中(例如Mysql),一般情况下,数据都有一个储存周期,400天左右,我们使用的可视化-工具平台(基于关系型数据库Mysql储存时间400天左右),可以进行同比(年)、环比(月),这些数据形成一个数据集(结果),最后一步就是根据业务需求来配置报表。为数据仓库层,PDW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。
原创
发布博客 2024.06.15 ·
800 阅读 ·
9 点赞 ·
0 评论 ·
4 收藏

内部表和外部表区别

Hive外部表:外部表的数据不是Hive拥有或者管理的,只管理元数据的生命周期。删除外部表时只会删除元数据,而不会删除实际数据(源数据)。1、在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并不是由它自己来管理的!所以,在大多数情况内部表和外部表没有太多的区别,如果所有处理都需要由Hive完成,那么你应该创建表,否则使用外部表较为好。Hive完全管理表(元数据和数据)的生命周期,类似于RDBMS的表。而删除外部表的时候,Hive仅仅删除外部表的元数据,数据是不会删除的。
原创
发布博客 2024.06.15 ·
199 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hive元数据的概念

元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据的存储主要有两种方式:第一种是使用hive自带的derby数据库进行元数据的存储;第二种是使用mysql数据库来进行hive元数据的存储;元数据包括表的属性、表的名称、表的列、分区及其属性以及表数据所在的目录等。hive表包含内部表和外部表。
原创
发布博客 2024.06.15 ·
193 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

数据仓库概述

不一致的数据转换:这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个用户在用户管理系统的编码是 XX0001 ,而在订单系统的编码是 YY0001 ,这样在抽取过来之后统一转换成一个编码;数据粒度的转换:业务系统一般存储粒度较小的数据,而数据仓库中的数据是用来分析的,不需要粒度很小的数据,一般情况下,会将业务系统数据按照数据仓库粒度进行聚合;元数据是整个数据仓库的核心部件,元数据管理器是企业级数据仓库中的关键部件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。
原创
发布博客 2024.06.15 ·
589 阅读 ·
7 点赞 ·
1 评论 ·
13 收藏

hive的数据存储

3.Hive元数据释对真实数据的描述,通常单独储存在MySQL中Hive除了两种命令行开发工具(CLI和Beeline) 之外还有许多第三方工具(HUE、 Ambari, zeppelin)。为了有效地对真实数据进行管理,根据粒度大小,Hive 将真实数据划分为如下数据单元。Hive是Hadoop上处理结构化数据的数据仓库基础工具,用来处理存储在Hadoop上的海量数据。RCFILE 是可分割的文件格式,即在每个行组中,元数据头部 (Metadata Header)分区的作用是提高查询的效率。
原创
发布博客 2024.06.15 ·
902 阅读 ·
7 点赞 ·
0 评论 ·
12 收藏