hive
vegetable chicken01
这个作者很懒,什么都没留下…
展开
-
Hive中like与rlike的区别
Hive 中可以用 like 和 rlike 进行模糊匹配,like 采用的是 SQL 通配符,而 rlike 采用的是正则匹配。like% 代替 0 或多个字符_ 代替一个字符举个例子:-- 返回值为 TRUEselect 'aaa' like '%a%'-- 返回值为 TRUEselect 'aaa' like '_a_'rlikerlike 采用正则表达式,以下总结几个常用的****: 转义用,序列 \\ 匹配 \^: 匹配输入字符串开始的位原创 2021-09-07 23:45:50 · 10154 阅读 · 0 评论 -
Hive宏(Macro)简介
最近在开发中用到了宏,用起来的确很方便,大大简化了代码,提高了可读性和可维护性,在此记录下宏的用法,以后有机会多更新一些宏的复杂用法。什么是 Macro在进行 Hive SQL 开发的时候,有一些逻辑需要反复使用,如果代码中每次都把所需逻辑复制粘贴一遍,不仅会造成代码冗余,还会增加维护难度,这时使用 Hive宏 对逻辑进行提炼,可以起到简化代码,提高开发效率,提升程序可读性的效果。如何使用 Macro宏的使用主要分为:创建、使用、销毁这三步,其中最重要的是创建部分,定义好后可以将宏像函数一样使用,最原创 2021-08-10 15:32:35 · 684 阅读 · 0 评论 -
Hive中的Sort Merge Bucket Join
最近学习时发现 Hive 中还有一种 SMB Join,即 Sort Merge Bucket Join ,赶紧找资料学习了一波。。map join我们知道在 Hive 中当小表 join 大表时可以通过 map join 将小表中的数据读入内存,在 map 端 join 大表,从而省略 reduce 过程,大大加快连接的速度,但是当小表数据量过大内存放不下时就无法使用 map join 了,由此引出了 Sort Merge Bucket Join。SMB join要使用 SMB Join,所有的表原创 2020-11-02 23:05:57 · 1071 阅读 · 0 评论 -
Hive中的Skew Join
看文档的时候突然发现Skew Join,之前只知道有内外连接,半开连接,全外连接,笛卡尔积,于是赶紧学习了下Skew Join,在这里做个总结。首先简单介绍下什么是数据倾斜比如我们有10000条数据,有10个reducer来处理数据,在这10000条数据中有9000条的key是相同的,这样经过hash之后,就会出现有一个reducer要自己处理9000条数据,而剩下的9个reducer可能每个...原创 2020-03-29 23:04:02 · 3017 阅读 · 2 评论 -
数据仓库之如何分层
1.前言数据仓库的建设是一个持续的工程。在这个过程中我们需要形成自己的规范,以方便管理和维护。在数据仓库的建设过程中,不仅会面临着公司业务迅速发展,业务系统迭代变更,需要对业务系统数据进行相应的整合,形成公司完整的统一数据视图;而且基于数据仓库的应用也是多样化的,比如支撑自己企业的数据可视化平台、即席查询、对策略提供数据支持等。参考目前已有的分层模型,结合自身实际数据情况,确定对数据仓库进行层次...原创 2020-01-07 14:50:26 · 1469 阅读 · 0 评论 -
Hive入门之基础知识(四)之文件格式和压缩方法
为什么使用压缩使用压缩可以减小所需的磁盘空间,减小磁盘和网络的IO操作,减小了载入内存的数据量提高了IO吞吐量,提升了网络性能(因为MapReduce大多是文件读写操作,属于IO密集型)。...原创 2019-12-19 09:24:53 · 394 阅读 · 0 评论 -
Hive入门之基础知识(三)之分区与优化的简单介绍
为什么要对数据进行分区在实际生产中,每天的数据量都是以亿为单位的,如果我们不对数据进行分区,直接对全部数据进行统计,则会大大增加时间开销,浪费大量资源。当我们做了合理分区后,例如按天进行分区,当查找某一天的数据时,Hive不会读取全部文件,只会读取HDFS中该天对应的目录,大大提高了执行效率。分区是不是越多越好多数情况下,对数据可以按天进行分区,如果数据量还是太大,可以考虑再按小时进行分区,...原创 2019-12-18 23:35:45 · 504 阅读 · 0 评论 -
Hive入门之基础知识(二)之数据操作与查询
向Hive表中装载数据Hive不会验证向表中装载的数据和表的模式是否匹配(需要自己检查确认),但是会检查文件的格式是否和表结构定义的一致(创建表时指定的结构若为SEQUENCEFILE,则装载进去的文件也应该为sequencefile格式)。从本地文件系统向表中装载数据LOAD DATA LOCAL INPATH 'path' INTO TABLE 'table' 从本地文件系统向表中...原创 2019-12-17 21:41:04 · 295 阅读 · 0 评论 -
Hive入门之基础知识(一)之杂七杂八
hive出现的原因:从一个基于传统关系型数据库和结构化查询语言的数据基础架构转移到Hadoop上,使用HQL查询Hadoop中的数据。hive不支持记录级别的更新、插入和删除操作。执行延迟大,不支持事务。hive组成模块:所有的命令和查询都会进入到驱动模块driver中,driver对输入进行解析和编译,以及对需求的计算进行优化,然后启动MR来执行job。hive本身不会生成MR的程序,而...原创 2019-12-16 17:48:45 · 192 阅读 · 0 评论
分享