![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
爱睡觉的考拉yxl
门头沟学院
展开
-
Hive框架(三) —— 解析json数组
解析json数组的函数通常有get_json_object() json_tuple() split() explode() regexp_replace() lateral viewget_json_object() 一次只能解析一个key,当需要解析多个字段时,不好用于是使用 json_tuple() 函数,结合lateral view() 使用一个解析json数组的思路:对于如下的字段,其中内容是[{"website":"baidu.com","name...原创 2022-05-02 15:35:00 · 1719 阅读 · 0 评论 -
Hive框架(三) —— Hive SQL语句的执行顺序
HQL的语句执行顺寻与SQL有一定的差别Hive SQLFrom - where - join - on - select - group by - select - having - distinct - order by - limit - union/union allMap 阶段: 执行 from,进行表的查找与加载; 执行 where,注意:sql 语句中 left join 写在 where 之前的,但是实际执行先执行 where 操作,因为 Hive 会对...原创 2022-05-02 11:24:08 · 4905 阅读 · 0 评论 -
Hive框架(二) —— Hive与传统数据库对比
Hive RDBMS 查询语言 Hive SQL SQL 是否支持索引 3.0后删除 支持复杂的索引 是否支持事务 可认为不支持 支持事务 是否支持更新 不支持 支持 是否支持视图 支持(但不推荐) 支持 执行引擎 MR,Tez, Spark Executor 处理数据规模大小 大 小 数据更新Hive是数仓建设工具,无法改变数据,因此不能进行数...原创 2022-05-02 11:10:10 · 1681 阅读 · 0 评论 -
大数据组件学习5 —— Hive(一)
Hive是基于Hadoop的数仓建设工具,严格意义上不算数据库,只是将HDFS中的数据映射成为一张表,本身并不存储数据,适合对历史数据做离线批处理分析。本文主要梳理归纳了关于Hive优化方面的知识点1. 存储与压缩优化一般在map输出阶段,最终输出阶段对结果进行压缩,一般采用 ORC/Parquet + snappy方式顺便小结 ORC与Parquet的区别:ORC为列式存储结构由stripe组成,stripe相当于RowGroup(行组)的概念,每个Stripe包含 Index原创 2022-05-02 10:50:20 · 98 阅读 · 0 评论