Hive
Hive学习
青云游子
大数据开发工程师
展开
-
hive数据量不一致,表1是5条,导入到表2,变成了10条
hive的数据里面,有脏数据,比如某个字段中的数据有换行符、\n。如果hive设置的参数,换行符正好是\n,那么数据就会变多。原创 2024-01-17 16:40:51 · 368 阅读 · 0 评论 -
hive可以删除单条数据吗
参考:hive只操作几条数据特别慢 hive可以删除单条数据吗_柳随风的技术博客_51CTO博客原创 2023-08-26 11:45:46 · 1030 阅读 · 0 评论 -
HiveSQL刷题
现有各直播间的用户访问记录表(live_events)如下,表中每行数据表达的信息为,一个用户何时进入了一个直播间,又在何时离开了该直播间。原创 2023-08-24 09:10:56 · 1216 阅读 · 0 评论 -
SQL之求股票的波峰和波谷--HiveSQL面试题33【今日头条】
参考:SQL之求股票的波峰和波谷--HiveSQL面试题33【今日头条】_sql 波峰波谷_莫叫石榴姐的博客-CSDN博客原创 2023-08-14 09:18:54 · 167 阅读 · 0 评论 -
SQL-方法论
【代码】SQL-方法论。原创 2023-08-02 15:02:17 · 776 阅读 · 0 评论 -
SQL-非等值连接
id 月份 GMV。小明 1 50。小明 1 50。小明 1 50。结果:每个月份的累积汇总值。需求五:id 月份 GMV。2)不能使用开窗,非等值连接。原创 2023-08-02 14:24:01 · 111 阅读 · 0 评论 -
Hive-数据倾斜
在计算各省份的GMV时,有可能会发生数据倾斜,解决办法如下:原创 2023-08-01 19:30:57 · 1441 阅读 · 0 评论 -
Hive优化
分区,分桶避免全局扫描 列式存储,加快计算速度 采用压缩,减少磁盘IO 谓词下推,行列过滤(select *),列剪裁,CBO优化(对于计算成本的优化,比如join的顺序) 开启map-side 针对groupby,数据量大的可以提前预聚合 开启map-join 大表join小表场景 开启分桶join SMB 两张表必须是分桶表 分桶数量必须整数倍 分桶字段必须是关联字段 开启skew-join,如果检测到有key比较多的,那么单独开启一个mapjoin去计算,其他正常原创 2023-08-01 19:18:10 · 52 阅读 · 0 评论 -
使用Druid解析SQL语法树
通过上述步骤,你可以使用Alibaba Druid的查询解析器解析SQL查询语句,并从解析结果中获取所需的信息。请注意,具体的解析逻辑可能会根据你使用的Druid版本和具体需求而有所不同,以上示例仅提供了一种常见的解析方法。在Alibaba Druid中,SQL解析是通过Druid的查询解析器来实现的。Druid的查询解析器可以将SQL查询语句解析为Druid查询的结构,以便在Druid集群上执行。对象可以提供对SQL查询的结构和元数据的访问。是要解析的SQL查询语句,原创 2023-06-07 13:21:52 · 1561 阅读 · 0 评论 -
hive批量修复分区
【代码】hive批量修复分区。原创 2023-06-06 20:46:24 · 191 阅读 · 0 评论 -
使用hiveserver2获取totalFileSize、lastAccessTime、lastUpdateTime
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0原创 2023-06-06 20:36:56 · 163 阅读 · 0 评论 -
hive启用LAST_ACCESS_TIME(访问时间)
2.重启hive即可。原创 2023-06-06 19:16:31 · 305 阅读 · 0 评论 -
使用metastore的java客户端,获取最后访问时间
请注意,您需要适当配置Hive的相关属性(如Hive Metastore的URL、用户名、密码等)以及引入必要的依赖项(如Hive Metastore客户端库)。另外,确保您的代码与Hive和Metastore的版本兼容。以上代码示例仅为参考,请根据您的实际情况进行调整。变量将包含表的最后访问时间。原创 2023-06-06 08:55:01 · 95 阅读 · 0 评论 -
hive获取表的访问时间
希望以上解释能够帮助您理解每个信息的含义。如有任何进一步的疑问,请随时提问。请问每一个都是什么意思?原创 2023-06-06 08:49:58 · 349 阅读 · 0 评论 -
获取Hive表元数据
如果想从HDFS获取最后访问时间,那么只能获取文件的,不能访问目录的。原创 2023-06-05 21:24:00 · 148 阅读 · 1 评论 -
Map Join和Bucket Map Join和SMB Map Join的区别
Map Join需要缓存整个小表,然后放到HDFS,每个MapTask都会拉取一份Bucket Map Join适合大表join大表的场景只需要缓存一个桶的数据SMB Map JoinSort Merge Bucket Map Join不需要缓存一个桶的数据,每个Mapper只需按顺序逐个key读取两个分桶的数据进行join即可原创 2023-06-05 16:12:00 · 158 阅读 · 1 评论 -
Hive 利用分桶表的优点优化查询
总结起来,利用分桶表的优点优化查询的关键在于指定与分桶列相关的查询条件,并确保查询中使用的列与分桶列对应。这样,Hive可以利用分桶表的分布特性来定位和处理相关的桶,从而提高查询性能。这样做可以优化查询性能,因为Hive只需处理少量的桶,而不是整个表。通过合理选择分桶列和查询条件,你可以进一步提高查询的效率。子句,将查询与分桶列相关联,从而让Hive仅处理相关的桶,而不是全表扫描。列进行了分桶和排序,Hive可以直接定位到相关的桶,并只处理包含特定。为了利用分桶表的优点,你可以在查询时使用。原创 2023-06-05 15:41:19 · 148 阅读 · 1 评论 -
【Hive】性能调优 - Map JOIN
map-side JOIN可以省掉reduce过程,从而提高Hive效率;Hive 0.11.0版本后,默认开启自动map-side JOIN优化,我们需要合理调整hive.auto.convert.join.noconditionaltask.size参数值。原创 2023-06-03 16:20:50 · 536 阅读 · 0 评论