![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 56
呔 小怪兽休走
这个作者很懒,什么都没留下…
展开
-
hive 存储格式理解(对比TextFile和RCFile)
serdeserde是序列化(serializer)和反序列化(deserializer)的简称Hive uses SerDe (and FileFormat) to read and write table rows.HDFS files --> InputFileFormat --> <key, value> --> Deserializer --> Row objectRow object --> Serializer --> <ke原创 2022-05-17 16:39:05 · 470 阅读 · 0 评论 -
通过hive底层执行过程排查hsql执行问题
众所周知,hive是执行在Hadoop集群上的数据仓库工具,它会将数据映射成表格的方式,以类似sql的语句执行mapreduce。那么,具体执行过程怎么转换成mapreduce任务的呢?首先 我们要清楚hivesql的执行顺序:第一步:执行FROM 第二步:WHERE条件过滤,and 比or的优先级高 第三步:GROUP BY分组 第四步:执行SELECT投影列 第五步:HAVING条件过滤 第六步:执行ORDER BY 排序然后,比较重要的一点就是怎么运行的了,简单来说产生需要原创 2021-12-29 17:51:34 · 992 阅读 · 0 评论 -
es在hive建外表报错:Cannot detect ES version
在hive建es外表时遇到了一个错误:在建表语句中增加参数'es.nodes.wan.only' = 'true'之后还是报同样的错误。可是按理说之前在相同集群建es外表时候没有出现这样的错误。进入hive 的debug模式:hive -hiveconf hive.root.logger=DEBUG,console可以看到日志输出:Unsupported/Unknown Elasticsearch version 6.8.2想到可能是因为elasticsearch-hado..原创 2021-08-28 18:01:04 · 1982 阅读 · 0 评论 -
hive窗口函数------- over()
功能:既能显示聚合前的数据 ,又能显示聚合后的函数执行顺序:最后一步执行 ,仅仅位于order by 之前 select查询中 存在多个窗口函数时 他们之间是没有影响的,每个窗口应用自己规则函数内容: over():partition by :分组(在分组内进行操作)。order by :默认从起点行到当前行。eg:sel...原创 2019-05-08 17:08:31 · 294 阅读 · 0 评论 -
HIVE SQL优化
SQL的执行顺序:第一步:执行FROM 第二步:WHERE条件过滤 第三步:GROUP BY分组 第四步:执行SELECT投影列 第五步:HAVING条件过滤 第六步:执行ORDER BY 排序Hive优化策略:1. 去除查询中不需要的column2. Where条件判断等在TableScan阶段就进行过滤3. 利用Partition信息,只读取符合条件的P...原创 2019-06-10 11:23:38 · 108 阅读 · 0 评论