![](https://img-blog.csdnimg.cn/20190918140158853.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hive
文章平均质量分 85
HIVE SQL常见的问题处理及入门
未来在这儿
熟悉k8s、docker;熟悉Spark Streaming,Storm,Flink,Hadoop,Hive,Redis,Kafka,RocketMQ,ES;熟悉Socket,AIO/NIO技术,熟练使用Gradle、Maven、Spring Boot2、SpringMVC、MyBatis; 熟炼掌握Oracle、MySql、SQLite、MongoDB等数据库开发 熟悉React、Vue等框架 ;熟练运用Git/Github, SVN,CC等 熟悉报表工具BI、ETL工具Kettle ;熟悉Asp.net平台,熟悉C#;熟练开发安卓和ios
展开
-
CDP的Hive3系列之Hive Metastore介绍
CDP的Hive Metastore (HMS) 是一种服务,用于在后端 RDBMS(例如 MySQL 或 PostgreSQL)中存储与 Apache Hive 和其他服务相关的元数据。Impala、Spark、Hive 和其他服务共享元存储。与 HMS 的连接包括 HiveServer、Ranger 和代表 HDFS 的 NameNode。这是CDP中Apache Hive3用户指南系列之一,之后还有几篇来介绍Hive3的功能和使用。转载 2023-02-21 08:45:00 · 1565 阅读 · 1 评论 -
CDP中的Hive3系列之Apache Hive3的特性
Cloudera 数据平台 (CDP) 服务,提供 Apache Tez 执行的 Apache Hive SQL 数据库。Hive on Tez 服务提供基于 Apache Hive 3.x 的基于 SQL 的数据仓库系统。Hive 3.x 中相对于以前版本的增强可以提高 SQL 查询性能、安全性和审计功能。Hive Metastore (HMS) 是一个单独的服务,不是 Hive 的一部分,甚至不一定在同一个集群上。HMS 将元数据存储在后端,用于 Hive、Impala、Spark 和其他组件。翻译 2023-02-15 09:00:00 · 608 阅读 · 2 评论 -
CDP中的Hive3系列之Hive3使用指南
在了解了Apache Hive3的特性和启动Hive后,就需要了解如何使用Apache Hive3.翻译 2023-02-15 08:30:00 · 1322 阅读 · 0 评论 -
升级到 CDP 后Hive on Tez 性能调整和故障排除指南
此博客介绍了有关 CDP 的 Hive on Tez 查询的一些基本故障排除和调整指南。作为查询性能分析的第一步,您应该验证并验证在 Hive 和 Hive on Tez 服务上设置的所有配置。所做的每一项更改都应进行测试,以确保其做出可衡量且有益的改进。查询调优是一项专门的工作,并非所有查询都可以通过更改 Tez 配置属性来更好地执行。您可能会遇到需要深入研究 SQL 查询以优化和提高执行和性能的场景。如果您需要有关性能调整工作的更多帮助,请联系您的 Cloudera 帐户和专业服务团队以提供指导。原创 2023-02-09 09:30:00 · 1639 阅读 · 0 评论 -
30分钟掌握 Hive SQL 优化(解决数据倾斜)
如果joinkey有集中的空值热点值,这些空值会聚集到少数个分区中,导致长尾问题。原创 2023-02-07 08:30:00 · 3830 阅读 · 17 评论 -
Hive分析函数系列文章
Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP。Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK。Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE。Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK。Hive分析窗口函数(一) SUM,AVG,MIN,MAX。Hive函数大全–完整版(一)Hive函数大全–完整版(三)Hive-基本操作入门。原创 2023-02-02 23:51:09 · 284 阅读 · 0 评论 -
Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。转载 2023-02-03 08:45:00 · 188 阅读 · 0 评论 -
Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK
这两个序列分析函数不是很常用,这里也介绍一下。(什么是WINDOW子句,转载 2023-02-03 08:30:00 · 408 阅读 · 1 评论 -
Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。转载 2023-02-02 23:11:00 · 233 阅读 · 0 评论 -
Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE
注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )数据准备:LAGLAG(col,n,DEFAULT) 用于统计窗口内往上第n行值第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)LEAD与LAG相反LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认转载 2023-02-02 08:37:29 · 437 阅读 · 1 评论 -
Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。转载 2023-02-02 08:34:00 · 286 阅读 · 0 评论 -
java.lang.IllegalStateException: unread block data
Spark 通过HIVE ON HBASE表读取数据源,报错:unread block data原创 2023-02-01 08:30:00 · 1651 阅读 · 3 评论 -
Hive UDF开发
Hive中,除了提供丰富的内置函数(见)之外,还允许用户使用Java开发自定义的UDF函数。开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hive.ql.exec.UDF,另一个是继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF;原创 2023-01-31 08:30:00 · 622 阅读 · 0 评论 -
Hive整合HBase,操作HBase表
HBase是被设计用来做k-v查询的,但有时候,也会遇到基于HBase表的复杂统计,写MR很不方便。Hive考虑到了这点,提供了操作HBase表的接口。值得商榷的是,使用Hive操作HBase中的表,只是提供了便捷性,对于性能上,较MapReduce并不会提升太多,请大家酌情使用。原创 2023-01-27 16:00:20 · 1187 阅读 · 2 评论 -
Hive整合HBase,操作HBase表
Hive与HBase利用两者本身对外的API来实现整合,主要是靠HBaseStorageHandler进行通信,利用 HBaseStorageHandler,Hive可以获取到Hive表对应的HBase表名,列簇以及列,InputFormat和 OutputFormat类,创建和删除HBase表等。Hive访问HBase中表数据,实质上是通过MapReduce读取HBase表数据,其实现是在MR中,使用HiveHBaseTableInputFormat完成对HBase表的切分,获取RecordReader原创 2023-01-27 11:14:12 · 1667 阅读 · 2 评论 -
Hive MetaStore 元数据库常见操作
hive元数据库中比较重要的一些表的作用,我们可以通过mysql元数据库分析相关字段引用情况,为我们定位和处理问题提供支持。同时可以用来分析现在的数据的存取情况。原创 2023-01-28 08:30:00 · 730 阅读 · 1 评论 -
Hive的元数据表结构及统计分析Statistics
类似于Oracle,Hive自己维护了一套元数据,用户通过HQL查询时候,Hive首先需要结合元数据,将HQL翻译成MapReduce去执行。Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等;原创 2023-01-27 08:00:00 · 1360 阅读 · 0 评论 -
Hive-基本操作入门
Hive是一种数据库技术,可以定义数据库和表来分析结构化数据。主题结构化数据分析是以表方式存储数据,并通过查询来分析。本章介绍如何创建Hive 数据库。配置单元包含一个名为 default 默认的数据库。原创 2023-01-23 21:38:33 · 520 阅读 · 2 评论 -
Hive函数大全–完整版(三)
Hive QL(HQL)简明使用指南原创 2023-01-23 10:12:59 · 280 阅读 · 3 评论 -
Hive函数大全–完整版(二)
Hive自带的UDF函数非常多,整理出来相关用法和注释。如果该文档对你的学习和工作有所帮助,那么请多多支持我。原创 2023-01-23 10:08:33 · 433 阅读 · 0 评论 -
Hive函数大全–完整版(一)
现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它性能可能不够优秀,但是它太方便、功能太强大了,做离线批量计算、ad-hoc查询甚至是实现数据挖掘算法,而且,和HBase、Spark、Tez都能整合使用。Hive自带的UDF函数非常多,整理出来有40多页。如果你是做大数据分析平台和数据仓库相关的,就目前来说,我建议,Hive是必须的。原创 2023-01-22 23:24:33 · 3381 阅读 · 0 评论 -
Hive入门实战(一)概述与使用
Hive简介,HIVE入门系列,主要讲述HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。原创 2023-01-08 23:49:42 · 209 阅读 · 2 评论