hive
文章平均质量分 93
魅影猎鹰
码农
展开
-
日常使用过程中易出错的 Hive Sql 合集
结果是错误的,把所有的电器类型都查询出来了,原因就是 and 优先级高于 or,上面的sql语句实际执行的是,先找出 classify = '家具' and price>100 的,然后在找出 classify = '电器' 的。在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。原创 2022-09-27 13:03:06 · 215 阅读 · 1 评论 -
Hive企业级优化
当然,有时候空值的数据又不一定是异常数据,还是需要保留的,但是空key过多都分配到一个reducer去了,这样执行起来就算不内存溢出也会发生数据倾斜情况,数据倾斜的话对集群资源的利用率来看的话是极其不利的,我们可以通过把空key虚拟成随机数,但要保证不是同一个空key,从而降低数据倾斜概率,虽然这样在对关联键做处理反而会总体增长执行时间,但却减轻了reducer负担。做hive优化的时候,涉及到参数调优时要慎重,比如把内存都申请抢占满了,避免因为你自己的任务调优了但影响到整个集群其他任务的资源分配,原创 2022-09-14 10:41:26 · 344 阅读 · 0 评论 -
Hive 高频考点讲解
1 HiveHive 是 FaceBook 开源的一款基于 Hadoop 数据仓库工具,它可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL 。1.1 Hive 优缺点1.1.1 优点 操作接口原创 2021-05-19 18:41:00 · 354 阅读 · 5 评论 -
sqoop job 实现自动增量导入
目录一、测试环境 1、MySQL表结构 2、hive表结构 二、普通增量导入 三、sqoop job增量导入 1、sqoop job 参数 2、查看已经存在的job 5、运行job并验证 回到顶部一、测试环境1、MySQL表结构mysql> show create table autoextend\GCREATE TABLE `autoextend` ( `id` bigint(20) NOT NULL AUTO_INCREMENT, ...原创 2021-02-02 21:05:24 · 503 阅读 · 1 评论 -
Hive性能调优指南
在企业中使用Hive构建离线数仓是一种十分普遍的方案。尽管Hive的使用场景是通过批处理的方式处理大数据,通常对处理时间不敏感。但是在资源有限的情况下,我们需要关注Hive的性能调优,从而方便数据的快速产出。同时,关于Hive的性能调优,也是面试中比较常见的问题,因此掌握Hive性能调优的一些方法,不仅能够在工作中提升效率而且还可以在面试中脱颖而出。本文会通过四个方面介绍Hive性能调优,主要包括:√性能调优的工具√设计优化√数据存储优化√作业优化性能调优的工具HQL提供了两个查看查原创 2020-10-19 19:36:47 · 948 阅读 · 1 评论 -
hive常用函数之字符串处理函数
1. 字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length('abcedfg') from lxw_dual; 72. 字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:hi...转载 2019-02-22 18:46:59 · 1546 阅读 · 0 评论