![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 56
刘跃盛
这个作者很懒,什么都没留下…
展开
-
数仓回顾剖析
ETL不能解决所有数据仓库的问题,因为零散的ETL需求,将结果堆砌到数据仓库,会造成数据库杂乱无章,管理混乱,需要合理的数据治理,以及数仓分层。1. 数据仓库的特征 4个特征面向主题 :每个需求和表都属于一个主题,可以用主题来对数仓的表分门别类集成性:将异结构数据源,比兔RDBMS,半结构化数据json,xml,properties,或者是flume切割的日志,转换成结构化的hive表,统一到ODS层非易失性:对历史的所有数据的存储需要稳定性,使用非易失的介质来保存,用HDFS时变性:数..原创 2021-07-19 12:56:21 · 106 阅读 · 0 评论 -
hive总结
数据仓库的概念数据仓库:主要用于做分析的OLAP数据库:事务处理 OLTP数据仓库的分层源数据层:ODS层 主要是针对我们的来源数据数据仓库层:DW层 主要用于存储数据 分析数据数据展示层: APP层 主要用于做数据的报表展示功能hive的基本概念hive是一个用来做数据分析的框架,主要用于数据仓库hive与hadoop的关系:hive的数据存储到 hdfs hive的数据计算用 mapreducehive的安装部署安装mysql 配置hivehive的..原创 2021-07-09 18:16:19 · 67 阅读 · 0 评论 -
hive数据的存储格式
hive的存储格式:研究的事使用哪种数据的存储格式让我们的数据更加紧凑,取数据的时候会加快速,让数据占用磁盘空间更少,压缩和解压缩的时候更加的快速存储格式主要有四种:text sequenceFile(二进制) parquet(二进制)orc分为两大类:行式存储:text sequenceFile列式存储:paequet orcorc文件存储格式 列式存储一个orc文件由多个stripe组成,一个stripe由三块构成分别是:index Data,row data,stripe原创 2021-07-09 17:58:30 · 126 阅读 · 0 评论 -
hive的压缩
压缩减少网络传输量==hive当中使用的压缩方式是:snappyhadoop2 默认本地库不支持snappy的压缩 需要重新编译hadoop让其支持本地库的压缩开启map的输出阶段压缩可以减少job中map和reduce task间数据传输量,具体配置如下:案例实操:1)开启hive中间传输数据压缩功能hive (default)>set hive.exec.compress.intermediate=true;2)开启mapreduce中map输出压缩功能hive (defaul原创 2021-07-09 17:43:58 · 190 阅读 · 0 评论 -
hive的三种参数设置和udf,udaf,udtf自定义函数
hive当中的三种参数设置第一种 hive-site.xml 对所有的hive的客户端都有效第二种参数设置:命令行的参数 bin/hive -hiveconf 参数名=参数值 对我们进入的这次会话有效第三种参数设置 :参数声明 对当前的sql语句生效 set 参数名=参数值hive自定义函数hive的自定义函数:第一种:UDF 一行数据进去,一行数据出来第二种:UDAF 多行进,一行出第三种:UDTF 一行进 多行出hive自定义函数步骤第一步:常见工程,导原创 2021-07-09 15:26:56 · 788 阅读 · 0 评论 -
hive查询所有方法,join
语法结构注意hive查询语法剖析order by 全局排序,只有一个reduceTask,如果数据量太大的话,那么就会导致数据处理速度非常慢sort by 有多个reduceTask只保证每个reduceTask里面的数据有序,两个reduceTask之间的数据无序distributed by 根据指定的字段,按照指定的字段进行 hash算法,确定我们的数据要去往哪里一个reducecluster by :除了具有distributed by的功能,还会对这个字段今夕排序hive的gro原创 2021-07-09 15:25:28 · 114 阅读 · 0 评论 -
hive导入,导出数据
hive当中的数据加载:导入这两种加载数据的方式,一定要掌握(1)load data(2)insert overwrite table xxx select * from ***insert overwrite table score4 partition(month='201806') select s_id ,c_id ,s_score from score;```![在这里插入图片描述](https://img-blog.csdnimg.cn/20210709124850原创 2021-07-09 14:31:30 · 60 阅读 · 0 评论 -
hive建库,建表,以及内外部表,分区表,分桶表
hive建库建库语法创建一个hive的数据库,就会默认创建一个对应的文件夹在这个路径下面hive.metastore.warehouse.dir/user/hive/warehousecreate database;语法查看数据库信息查看数据库基本信息desc database myhive2;查看数据库更多详细信息desc database extended myhive2;hive建表 [(col_name data_type [COMMENT col_commen原创 2021-07-08 23:44:15 · 907 阅读 · 1 评论 -
hive的三种交互方式
使用hive的shell bin/hive 可以进入hive的客户端,执行我们的sql语句(掌握)第二种方式:启动服务端,使用beeline进行交互(掌握)第三种方式使用hive命令行的交互bin/hive -e 不进入hive的客户端直接执行hql语句bin/hive -f hive.sql 不进入hive的客户端,直接执行hive的脚本1.bin/hive2-使用beeline进行交互(Hive推荐的交互使用方式)**1.先启动 hadoopstart-all.sh2. 启动.原创 2021-07-08 23:23:55 · 493 阅读 · 0 评论 -
hive的安装,极简看图
hive只需要安装在一台有hadoop的程序上就可以了,Hive是Hadoop的MapReduce的的客户端程序,MapReduce是分布式下载地址实际线上环境,关于mysql的控制比较严格,不同的人分配不同用户,创建不同的数据库,分配不同的权限mysql的远程连接授权语句:grant all privileges on . to ‘root’@’%’ identified by ‘123456’ with grant option;flush privileges; 刷新权限表. :原创 2021-07-08 23:08:35 · 96 阅读 · 0 评论 -
hive与hadoop的关系
hive就是一个mr的客户端mapreduce为什么慢反复的将数据从磁盘到内存,从内存到磁盘的读取写入操作(spark从头到尾都在内存中,所以比MR快)1. 首先读取hdfs的数据到map的环形内存缓冲区2. 缓冲区形成小文件到reduce的内存3. reduce从内存落入磁盘hive的数据时存储在hdfs上面,而且hive支持各种存储格式注意:千万别把hive当做数据库来用,hive是用来做数据仓库的现在版本的hive支持插入,不支持修改,删除操作,最主要的功能就是查询,是对已经发生原创 2021-07-08 22:53:37 · 1043 阅读 · 0 评论 -
hive的架构,极简看图
用户接口:提供我们写sql的地方元数据:记录我们hive的表与我们数据之间的映射关系解析器:解析我们的sql语句,转换成mr的任务提交,准备执行执行器:mr执行原创 2021-07-08 22:40:27 · 59 阅读 · 0 评论 -
Hive的极简理解,看图
Hive:是一个数据仓库的处理工具,专门用于数据仓库的数据分析hive是基于hadoop的一个数据仓库的工具,将结构化的数据映射成为一张表,并且提供类似sql的查询功能结构化数据1.结构化数据:体现为数据字段固定,数据类型固定,数据库的表就是一种最典型的结构化数据2.半结构化数据:数据类型一定,但是数据的字段个数不定3.非结构化数据:完全没有任何规律,字段类型不定,字段的个数不定,数据的类型不定,比如说音频,视频映射hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能hi原创 2021-07-08 22:34:14 · 115 阅读 · 0 评论 -
数据仓库的详细分层
数据仓库的详细分层1.什么是数据仓库仓库就是用来存储,外界放入数据的,仓库不会生产数据也不会消耗这些数据。数据仓库:简称DW data warehouse 里面装的都是数据目的:构建面向分析集成化数据环境,主要职责就是做分析,对仓库里面的数据来做分析,然后数据分析可以支持企业分析人员做决策2.数据分析的特征面向主题:数据分析有一定的范围,需要选取一定的主题进行分析集成性:集成各个其他方面关联的一些数据,比如分析订单购买人的情况,就涉及到牵连用户信息的情况非易失性:数据分析主要是分析过去已经原创 2021-07-08 22:14:55 · 2378 阅读 · 0 评论 -
Hive 的数据类型和数据模型
在上篇文章里,我列举了一个简单的hive操作实例,创建了一张表test,并且向这张表加载了数据,这些操作和关系数据库操作类似,我们常把hive和关系数据库进行比较,也正是因为hive很多知识点和关系数据库类似。 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。 首先我要讲讲hive的数据类型。 Hive支持两种数据类型,一类叫原子原创 2021-06-03 16:03:14 · 497 阅读 · 0 评论 -
Hive 介绍
首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提原创 2021-06-03 16:00:26 · 2883 阅读 · 0 评论