数据仓库
数据仓库
zdsg1024
成功的路上并不拥挤,因为坚持的人不多
展开
-
hive文件存储格式orc,parquet,avro对比
orc文件存储格式ORC文件也是以二进制方式列式存储的,所以是不可以直接读取,ORC文件也是自解析的,它包含许多的元数据,这些元数据都是同构ProtoBuffer进行序列化的。文件结构如下ORC文件:保存在文件系统上的普通二进制文件,一个ORC文件中可以包含多个stripe,每一个stripe包含多条记录,这些记录按照列进行独立存储,对应到Parquet中的row group的概念。文...原创 2019-10-13 19:02:37 · 3495 阅读 · 0 评论 -
hive的内部表外部表区别
hive的内部表外部表区别在本地创建数据文件并put到hdfs中#a.txt10 1520 2530 35hdfs dfs -put ./a.txt /user/samplecreate table tt1(a int,b int)row format delimited fields terminated by '\t'location ...原创 2019-10-13 13:44:46 · 144 阅读 · 0 评论 -
拉链表
拉链表1.什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史(某个粒度的一个状态)。记录一个事物从开始,一直到当前状态的所有变化的信息2.拉链表的使用场景有一些表的数据量很大,比如一张用户表,大约10亿条记录,50个字段,这种表,即使使用ORC压缩,单张表的存储也会超过100G,在HDFS使用双备份或者三备份的话就更大一些。表中的部分字...原创 2019-10-13 18:10:54 · 1464 阅读 · 1 评论 -
hive的存储过程 hplsql配置
hive2.x自带hplsql如果用的hive1.x需要下载hplsql1.配置 hplsql-site.xml在hive的conf下新建 hplsql-site.xml 并添加以下内容<configuration><property> <name>hplsql.conn.default</name> <value&...原创 2019-09-22 10:36:17 · 1100 阅读 · 0 评论 -
LZO压缩的安装配置与测试
LZO的安装配置1.1 在hadoop集群每个节点上安装lzo和lzop及其依赖(主要为解决安装lzop): [root@hadoop01 ~]# yum -y install *lzo* [root@hadoop02 ~]# yum -y install *lzo* [root@hadoop03 ~]# yum -y install *lzo*1.2 先安装gcc等工具[root...原创 2019-09-17 19:37:17 · 704 阅读 · 0 评论 -
hive内置函数
1. 常用命令1.1 显示所有函数show functions;1.2 查看某个函数功能(此时的function_name不加())desc function function_name;1.3 查看函数名包含字符串co的函数show functions like ‘* ab *’;2.常用函数2.1 rand()用法:rand([seed])功能:返回0到1之间的...原创 2019-09-11 20:43:04 · 609 阅读 · 0 评论 -
hive中join与union的语法
1.类型(left join\left outer join) \ right join \right outer join \inner join \ full outer join特殊类型: left semi join2.实例2.1 数据准备1,a2,b3,c4,d7,y8,u2,bb3,cc7,yy9,ppcreate table if not ex...原创 2019-09-10 20:06:53 · 1223 阅读 · 0 评论 -
hive之分桶
1.为什么要分桶当单个的分区或者表的数据量过大,分区不能更细粒度的划分数据,就需要使用分桶技术将数据划分成更细的粒度。分桶其实就是创建不同数据存储的文件2.分桶技术[CLUSTERED BY (COLUMNNAME COLUMNTYPE [COMMENT ‘COLUMN COMMENT’],…)[SORTED BY (COLUMNNAME [ASC|DESC])…] INTO NU...原创 2019-09-10 19:09:43 · 187 阅读 · 0 评论 -
hive自定义函数上传方式
1.临时函数1.1将本地自定义函数打包成jar包上传到linux中1.2在hive下添加jar包add jar jar包路径名称;1.3临时加载函数create temporary function 函数名(自己定义) as ‘com.ali.udf.FirstUdf(自定义的函数类)’;1.4添加成功生成的函数名为自己定义的函数名,此时添加的函数,在退出hive重新进入后就会消...原创 2019-09-11 19:23:47 · 565 阅读 · 0 评论 -
hive中复杂的数据类型array与map
1.array//创建表create table if not exists arr2(name string,score array<String>)row format delimited fields terminated by '\t' //字段之间的分隔符collection items terminated by ',' //arr...原创 2019-09-11 18:46:10 · 705 阅读 · 0 评论