![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 54
刘跃盛
这个作者很懒,什么都没留下…
展开
-
数仓建模与数据采集
数仓分层:ODS (源数据层)存的数据内容需要进行大数据分析的业务关联数据以hive表形式展现,存储在hdfs文件系统特点:导入数据的过程一定不能改变原有的数据内容数据从哪里来sqoop是从oracle业务系统中导入的数据DWD (数据明细层)存的数据内容所有业务系统表的明细数据(分区数据)数据从哪里来从ods层按分区导入的数据DWS (维度层 DIM)存的数据内容存储维度层数据:日期维度,地理区域各个不同粒度的维度数据…以or原创 2022-03-03 13:21:34 · 275 阅读 · 0 评论 -
数仓回顾剖析
ETL不能解决所有数据仓库的问题,因为零散的ETL需求,将结果堆砌到数据仓库,会造成数据库杂乱无章,管理混乱,需要合理的数据治理,以及数仓分层。1. 数据仓库的特征 4个特征面向主题 :每个需求和表都属于一个主题,可以用主题来对数仓的表分门别类集成性:将异结构数据源,比兔RDBMS,半结构化数据json,xml,properties,或者是flume切割的日志,转换成结构化的hive表,统一到ODS层非易失性:对历史的所有数据的存储需要稳定性,使用非易失的介质来保存,用HDFS时变性:数..原创 2021-07-19 12:56:21 · 103 阅读 · 0 评论 -
hbase-phoenix的视图,二级索引--重要
Phoenix的视图 说明: 发现在Phoenix的只有在Phoenix自定义的表以及Phoenix的系统表, 如果我们在hbase上自定义的表, 在Phoenix中无法找到的, 那么也就意味着无法通过Phoenix对hbase自建的表进行相关的操作 如何解决这种问题呢? 采用Phoenix提供的视图视图主要的目的: 对hbase自建表进行映射关系匹配, 这个过程类似于 hive表和hdfs上数据进行映射 映射成功后, 我们就可以通过Phoenix对hbase中自建表进行相关的查询操作原创 2021-07-10 18:20:21 · 465 阅读 · 0 评论 -
hbase 调优
hbase本身是没有什么可以直接优化的地方,都是以下方式间接优化原创 2021-07-10 17:31:38 · 65 阅读 · 0 评论 -
hbase--phoenix---介绍,安装,入门,与基于Phoenix实现hbase的预分区
Phoenix的基本介绍Phoenix是一款apache旗下的开源的 基于hbase可以使用SQL的方式来查询hbase数据的工具 Phoenix的出现主要目的就是为了能够让我们通过另一种方式(SQL)来操作hbase, 同时Phoenix对hbase也进行各种的优化操作, 能够让我们更加高效的操作hbase中数据Phoenix的安装容易犯错的点:1) Phoenix的jar包没有拷贝到hbase的lib目录中, 或者说没有將Phoenix分发到各个hbase的lib目录2) 没有将hbas原创 2021-07-10 17:20:07 · 328 阅读 · 0 评论 -
hbase--和hive的集成操作,表结构设计,协处理器
Hbase和Hive的集成操作hbase和hive的对比hbase:是一个基于hadoop的noSql型数据库,延迟比较低,对接在线业务,或者对应实时业务hive:是一个基于hadoop的数据仓库的工具,延迟比较高,对接离线分析的操作,主要是进行ETL操作hive和hbase都是两款基于hadoop的不同软件,这两款软件也是可以支持集成操作的,可以使用hive读取hbase中数据,从而实现离线分析的操作,hbase和phoneix进行集成,集成后主要可以进行即席的查询操作hbase如何原创 2021-07-10 17:05:10 · 282 阅读 · 0 评论 -
hbase---高可用,集群架构,原理,工作机制,Bulk Load 批量加载操作
hbase的高可用什么是hbase的高可用?指的是:让master节点能够有多个,当节点宕机后,能够有备份的节点顶的上来,此时认为master形成了高可用状态如何实现hbase的主节点的高可用呢?环境为VMware 三台虚拟机在hbase的conf目录下,创建backup-master文件,并添加如下内容:node1中执行: cd /export/server/hbase-2.1.0/conf/ vim backup-masters内容如下: node2.itcast.cn node3.原创 2021-07-10 16:33:06 · 393 阅读 · 0 评论 -
hive总结
数据仓库的概念数据仓库:主要用于做分析的OLAP数据库:事务处理 OLTP数据仓库的分层源数据层:ODS层 主要是针对我们的来源数据数据仓库层:DW层 主要用于存储数据 分析数据数据展示层: APP层 主要用于做数据的报表展示功能hive的基本概念hive是一个用来做数据分析的框架,主要用于数据仓库hive与hadoop的关系:hive的数据存储到 hdfs hive的数据计算用 mapreducehive的安装部署安装mysql 配置hivehive的..原创 2021-07-09 18:16:19 · 67 阅读 · 0 评论 -
hive数据的存储格式
hive的存储格式:研究的事使用哪种数据的存储格式让我们的数据更加紧凑,取数据的时候会加快速,让数据占用磁盘空间更少,压缩和解压缩的时候更加的快速存储格式主要有四种:text sequenceFile(二进制) parquet(二进制)orc分为两大类:行式存储:text sequenceFile列式存储:paequet orcorc文件存储格式 列式存储一个orc文件由多个stripe组成,一个stripe由三块构成分别是:index Data,row data,stripe原创 2021-07-09 17:58:30 · 125 阅读 · 0 评论 -
hive的压缩
压缩减少网络传输量==hive当中使用的压缩方式是:snappyhadoop2 默认本地库不支持snappy的压缩 需要重新编译hadoop让其支持本地库的压缩开启map的输出阶段压缩可以减少job中map和reduce task间数据传输量,具体配置如下:案例实操:1)开启hive中间传输数据压缩功能hive (default)>set hive.exec.compress.intermediate=true;2)开启mapreduce中map输出压缩功能hive (defaul原创 2021-07-09 17:43:58 · 190 阅读 · 0 评论 -
hive的三种参数设置和udf,udaf,udtf自定义函数
hive当中的三种参数设置第一种 hive-site.xml 对所有的hive的客户端都有效第二种参数设置:命令行的参数 bin/hive -hiveconf 参数名=参数值 对我们进入的这次会话有效第三种参数设置 :参数声明 对当前的sql语句生效 set 参数名=参数值hive自定义函数hive的自定义函数:第一种:UDF 一行数据进去,一行数据出来第二种:UDAF 多行进,一行出第三种:UDTF 一行进 多行出hive自定义函数步骤第一步:常见工程,导原创 2021-07-09 15:26:56 · 782 阅读 · 0 评论 -
hive查询所有方法,join
语法结构注意hive查询语法剖析order by 全局排序,只有一个reduceTask,如果数据量太大的话,那么就会导致数据处理速度非常慢sort by 有多个reduceTask只保证每个reduceTask里面的数据有序,两个reduceTask之间的数据无序distributed by 根据指定的字段,按照指定的字段进行 hash算法,确定我们的数据要去往哪里一个reducecluster by :除了具有distributed by的功能,还会对这个字段今夕排序hive的gro原创 2021-07-09 15:25:28 · 113 阅读 · 0 评论 -
hive导入,导出数据
hive当中的数据加载:导入这两种加载数据的方式,一定要掌握(1)load data(2)insert overwrite table xxx select * from ***insert overwrite table score4 partition(month='201806') select s_id ,c_id ,s_score from score;```![在这里插入图片描述](https://img-blog.csdnimg.cn/20210709124850原创 2021-07-09 14:31:30 · 60 阅读 · 0 评论 -
hive建库,建表,以及内外部表,分区表,分桶表
hive建库建库语法创建一个hive的数据库,就会默认创建一个对应的文件夹在这个路径下面hive.metastore.warehouse.dir/user/hive/warehousecreate database;语法查看数据库信息查看数据库基本信息desc database myhive2;查看数据库更多详细信息desc database extended myhive2;hive建表 [(col_name data_type [COMMENT col_commen原创 2021-07-08 23:44:15 · 905 阅读 · 1 评论 -
hive的三种交互方式
使用hive的shell bin/hive 可以进入hive的客户端,执行我们的sql语句(掌握)第二种方式:启动服务端,使用beeline进行交互(掌握)第三种方式使用hive命令行的交互bin/hive -e 不进入hive的客户端直接执行hql语句bin/hive -f hive.sql 不进入hive的客户端,直接执行hive的脚本1.bin/hive2-使用beeline进行交互(Hive推荐的交互使用方式)**1.先启动 hadoopstart-all.sh2. 启动.原创 2021-07-08 23:23:55 · 488 阅读 · 0 评论 -
hive的安装,极简看图
hive只需要安装在一台有hadoop的程序上就可以了,Hive是Hadoop的MapReduce的的客户端程序,MapReduce是分布式下载地址实际线上环境,关于mysql的控制比较严格,不同的人分配不同用户,创建不同的数据库,分配不同的权限mysql的远程连接授权语句:grant all privileges on . to ‘root’@’%’ identified by ‘123456’ with grant option;flush privileges; 刷新权限表. :原创 2021-07-08 23:08:35 · 95 阅读 · 0 评论 -
hive与hadoop的关系
hive就是一个mr的客户端mapreduce为什么慢反复的将数据从磁盘到内存,从内存到磁盘的读取写入操作(spark从头到尾都在内存中,所以比MR快)1. 首先读取hdfs的数据到map的环形内存缓冲区2. 缓冲区形成小文件到reduce的内存3. reduce从内存落入磁盘hive的数据时存储在hdfs上面,而且hive支持各种存储格式注意:千万别把hive当做数据库来用,hive是用来做数据仓库的现在版本的hive支持插入,不支持修改,删除操作,最主要的功能就是查询,是对已经发生原创 2021-07-08 22:53:37 · 1037 阅读 · 0 评论 -
hive的架构,极简看图
用户接口:提供我们写sql的地方元数据:记录我们hive的表与我们数据之间的映射关系解析器:解析我们的sql语句,转换成mr的任务提交,准备执行执行器:mr执行原创 2021-07-08 22:40:27 · 59 阅读 · 0 评论 -
Hive的极简理解,看图
Hive:是一个数据仓库的处理工具,专门用于数据仓库的数据分析hive是基于hadoop的一个数据仓库的工具,将结构化的数据映射成为一张表,并且提供类似sql的查询功能结构化数据1.结构化数据:体现为数据字段固定,数据类型固定,数据库的表就是一种最典型的结构化数据2.半结构化数据:数据类型一定,但是数据的字段个数不定3.非结构化数据:完全没有任何规律,字段类型不定,字段的个数不定,数据的类型不定,比如说音频,视频映射hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能hi原创 2021-07-08 22:34:14 · 115 阅读 · 0 评论 -
数据仓库的详细分层
数据仓库的详细分层1.什么是数据仓库仓库就是用来存储,外界放入数据的,仓库不会生产数据也不会消耗这些数据。数据仓库:简称DW data warehouse 里面装的都是数据目的:构建面向分析集成化数据环境,主要职责就是做分析,对仓库里面的数据来做分析,然后数据分析可以支持企业分析人员做决策2.数据分析的特征面向主题:数据分析有一定的范围,需要选取一定的主题进行分析集成性:集成各个其他方面关联的一些数据,比如分析订单购买人的情况,就涉及到牵连用户信息的情况非易失性:数据分析主要是分析过去已经原创 2021-07-08 22:14:55 · 2376 阅读 · 0 评论