Hive系列一（什么是Hive、为什么需要Hive）

最新推荐文章于 2024-11-03 14:39:58 发布

YinJuan791739156

最新推荐文章于 2024-11-03 14:39:58 发布

阅读量429

点赞数 8

文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/YinJuan791739156/article/details/135238650

版权

了解MapReduce编程的都知道，MR程序三板斧：Mapper、Reduce、Driver。本身写代码比较繁琐，而且具有一定的重复工作量。为此Hive就诞生了.

Hive是一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。通过简单的Hive SQL就能实现统计功能。有了Hive，我们就可以谢谢sql语句就可以完成查询功能了，而不需要每次都写Mapper、Reduce、Driver等等，大大减少了代码量。

select count(*) from test group by id;

Hive的本质：Hive是一个Hadoop的客户端，用于将HSQL转换成MR程序。

Hive每张表的数据都存放在HDFS上。
Hive分析数据底层的实现是MapReduce（也可配置为Spark或者Tez）。
执行程序运行在Yarn上。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YinJuan791739156

关注关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

数仓工具—Hive语法之正则表达式函数

07-14

3万+

在我的其他文章中，我们已经看到了如何使用Hive正则表达式从字符串中提取日期值。正则表达式的另一个常见用途是提取数值，例如从字符串数据中提取区号或电话号码。当您处理不同的数据源时，可能需要从给定的字符串类型列中提取数字值，如电话号码或区号。例如，考虑下面的Hive示例，使用函数中的不同表达式从字符串中提取数字。例如，考虑以下示例，使用Hive正则表达式从字符串中仅获取3位数字。这些关键字，都是和匹配有关的，今天我们介绍一下hive 的。例如，以下示例中的正则表达式仅从字符串中提取6位数字。

[Hive]一篇带你读懂Hive是什么

Philosophy7的博客

05-18

2万+

✅作者简介：大家好,我是Philosophy7？让我们一起共同进步吧！🏆 📃个人主页：Philosophy7的csdn博客 🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门 💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博>主哦🤞 文章目录一、Hive介绍Hive的优缺点Hive架构Hive用户接口Hive元数据的三种存储模式Hive数据存储架构原理用户接口Hadoop驱动器：DriverHive文件格式Hive本质Hive工作原理Hive数据类型一、Hive介.

1 条评论您还未登录，请先登录后发表或查看评论

Hive 是什么？Hive 有什么特点？

Shockang的博客

06-17

1万+

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文 Hive 的产生背景 Hadoop 生态系统就是为了处理大数据而产生的解決方案。在 Hadoop 中的 MapReduce 计算模型能将计算作业任务切分成多个小单元，然后分布到各个节点上去执行，从而降低计算成本并提供高扩展性。但是要使用 MapReduce 进行数据处理分析的门槛是比较高的，要先学会

HIve安装配置（超详细）

热门推荐

W_chuanqi的博客

04-19

7万+

文章目录Hive安装配置一、Hive安装地址二、Hive安装部署1. 把 `apache-hive-3.1.2-bin.tar.gz`上传到Linux的/export/software目录下2. 解压`apache-hive-3.1.2-bin.tar.gz`到/export/servers/目录下面3. 修改`apache-hive-3.1.2-bin.tar.gz`的名称为hive4. 修改/etc/profile，添加环境变量5. 初始化元数据库（默认是derby数据库）三、MySQL安装1. 安装M

Hive 是什么

山鬼谣弋痕夕的博客

01-31

5440

1.Hive 是什么 hive 是一个构建在Hadoop上的数据仓库工具,它可以让结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,剋将SQL语句转换为MapReduce任务进行运行,其优点是学习成本低. hive的目的是让精通SQL技能的分析师能够在Facebook存放在HDFS的大规模数据集上进行查询操作. 目前,Hive已经成为一个通用的、可伸缩的数据处理平台. 2...

Hive 的 SerDe 是什么？

Shockang的博客

06-21

1万+

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文 hive 的 SerDe 是什么 SerDe 是 Serializer/Deserializer 的简写。 hive使用 SerDe 进行行对象的序列与反序列化。最后实现把文件内容映射到 hive 表中的字段数据类型。为了更好的阐述使用 SerDe 的场景，我们需要了解一下 Hive 是如何读数据的(类

Hive 的分区表是什么？

Shockang的博客

06-20

1万+

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文 hive 分区表的概念在文件系统上建立文件夹，把表的数据放在不同文件夹下面，加快查询速度。 hive 分区表的构建创建一个分区字段的分区表 hive> create table student_partition1( id int, name string, ag

Hive数据模型是什么？

Shockang的博客

06-20

1万+

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文 Hive 中所有的数据都存储在 HDFS 中，它包含数据库( Database )、表( Table )、分区表( Partition )和桶表( Bucket ) 4 种数据类型，其模型如图所示。下面针对 Hive 数据模型中的数据类型进行介绍数据库:相当于关系数据库中的命名空间( namesp

13、java api访问hive操作示例

alanchanchn的专栏

06-08

5万+

本文依赖hive环境可用，特别是HiveServer2。本文仅仅介绍通过java api访问hive的数据。

hive和mysql的区别是什么

李白

09-06

3197

Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统，Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce。5、索引：hive没有索引，因此查询数据的时候是通过mapreduce很暴力的把数据都查询一遍，也造成了hive查询数据速度很慢的原因，而mysql有索引；2、数据存储位置不同：hive是把数据存储在hdfs上，而mysql数据是存储在自己的系统中；4、数据更新：hive不支持数据更新，只可以读，不可以写，而sql支持数据更新；

DBeaver链接hive驱动包下载： hive-jdbc-uber-2.6.5.0-292.jar

05-17

在大数据处理领域，Hive作为一个基于Hadoop的数据仓库工具，广泛用于数据查询和分析。而DBeaver，作为一款跨平台的数据库管理工具，以其用户友好的界面和强大的功能，深受开发者喜爱。当需要在DBeaver中操作Hive...

hive jdbc 连接所需要的jar包

10-10

在使用Hive JDBC进行连接时，需要依赖一系列的jar包来确保所有必要的功能得以实现。下面将详细介绍这些jar包以及它们在Hive JDBC连接中的作用。首先，`hivelib`这个压缩包很可能包含了以下关键的jar文件： 1. **...

Hive3.1.2编译源码

05-20

使用hive3.1.2和spark3.0.0配置hive on spark的时候，发现官方下载的hive3.1.2和spark3.0.0不兼容，hive3.1.2对应的版本是spark2.3.0，而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。所以，如果想要使用高...

apache seatunnel支持hive jdbc

10-30

apache seatunnel支持hive jdbc

什么是Hive？为什么要用Hive？

weixin_51689029的博客

10-14

2685

Hive一个可以将结构化的数据文件映射为一张数据库表并提供类SQL查询功能的数据仓库工具，而且它是基于Hadoop的。因此，从本质上来看，Hive是将SQL转换为。

sqoop Oracle to hive出现 Error Msg = ORA-00933: SQL 命令未正确结束

qq_44540985的博客

10-31

286

关键在于sqoop在计算split-by切片字段时：OriginalSql = SELECT MIN(YEAR), MAX(YEAR) FROM (SELECT。的语法，Oracle是不支持select * from (select * from A) as t1，这种子查询AS 命名表名的写法。那么sqoop脚本中如何避免呢？

【Hive sql面试题】找出连续活跃3天及以上的用户

lzhlizihang的博客

10-31

117

Hive sql面试题：找出连续活跃3天及以上的用户，包括解题思路以及答案 sql 代码

内存马浅析

好记性不如烂笔头

10-30

1028

之前在jianshu上写了很多博客，但是安全相关的最近很多都被锁了。所以准备陆陆续续转到csdn来。内存马前几年一直是个很热门的漏洞攻击手段，因为相对于落地的木马，无文件攻击的内存马隐蔽性、持久性更强，适用的漏洞场景也更多。

Hive数据库操作语法