Hive学习（一）

最新推荐文章于 2024-08-18 20:23:34 发布

2301_79721847

最新推荐文章于 2024-08-18 20:23:34 发布

阅读量368

点赞数 3

文章标签： hive 学习 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79721847/article/details/141071107

版权

一、Hive基本概念

1.简介：是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供 SQL查询功能，用于解决海量数据结构化日志的数据统计工具。

2.本质：将HQL转换成MapReduce程序

1）Hive处理的数据存储在HDFS

2）Hive分析数据底层的实现是MapReduce

3）执行程序运行在Yarn上

3.优点

1）操作接口使用SQL语法，简单、容易上手。

2）避免了编写MapReduce，减少开发人员的学习成本。

3）Hive执行延迟比较高（常用于数据分析，对实时性要求不高的场合，

4）由于Hive的延迟执行较高，对处理大数据比较有优势。

5）支持用户自定义函数，可以根据用户自身需求实现自己的函数。

4.缺点

1）由于MapReduce数据处理流程的限制，效率更高的算法无法实现（不擅长数据挖掘）；迭代式无法表达。

2）调优比较困难，颗粒较粗；hive自动生成的MapReduce作业，一般不够智能化。

5.架构

1）Client（用户接口）

CLI(提供交互shell方式接入hive）、JDBC/ODBC（java访问hive），WEBUI（浏览器访问hive）

2）Meta（元数据）

包括表名、表所属的数据库、表的拥有者、列/分区字段、表的类型和表的数据所在目录等。

3）Hadoop集群

使用HDFS进行存储，使用MapReduce进行计算

4）驱动器

解析器：对SQL进行语法分析和语义分析

编译器：将AST编译生成逻辑执行计划

优化器：对逻辑执行计划进行优化

执行器：将逻辑执行计划转换成可以运行的物理计划。

二、Hive的数据类型

分为基本类型和复合数据类型。

1.基本数据类型

注：String类型相当于数据库的varchar类型（可变字符串），区别是不能声明其中最多储存多少个字符，理论上可以存储2GB的字符数。

2.复合数据类型

1）直接用下标进行访问（与c数组相似）

2）map字段的元素访问方式

//根据key键和value值进行访问
select mp["name"] as name,mp["age"] as age from test;

3）struct的访问

//查询语法
select str.name from test1;

3.数据类型转换

1.显式转换

1）强制转换浮点数为int

select cast("1.23" as int)

2）强制转换浮点型为字符串

select cast("1.23" as string);

2.隐式转换(系统会进行自动类型转换）

1）tinyint-->int-->bigint

2）所有整数类型、float 和 string类型都可以隐式地转换成double。

3）tinyint、smallint、int都可以转换为float。

4）boolean类型不可以转换为任何其它的类型。

三、DDL操作

1.数据库DDL操作

1）创建数据库

hive> show databases;

2）显示数据库

hive> show databases like 'db_hive*';

3）查看数据库详情

hive> desc database db_hive;

4）显示数据库详细信息

hive> desc database extended db_hive;

5）切换当前数据库

hive > use db_hive;

6）删除数据库

hive> drop database if exists db_hive;

7）如果数据库中有表存在，那么要加cascade强制删除

hive> drop database if exists db_hive cascade;

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Hive学习（一）

CLI(提供交互shell方式接入hive）、JDBC/ODBC（java访问hive），WEBUI（浏览器访问hive），可以将结构化的数据文件映射成一张表，并提供 SQL查询功能，用于解决海量数据结构化日志的数据统计工具。包括表名、表所属的数据库、表的拥有者、列/分区字段、表的类型和表的数据所在目录等。1）由于MapReduce数据处理流程的限制，效率更高的算法无法实现（3）Hive执行延迟比较高（常用于数据分析，对实时性要求不高的场合，4）boolean类型不可以转换为任何其它的类型。
复制链接

扫一扫

2301_79721847 CSDN认证博客专家 CSDN认证企业博客

码龄1年

54: 原创

6万+: 周排名

3万+: 总排名

2万+: 访问

: 等级

943: 积分

277: 粉丝

402: 获赞

13: 评论

359: 收藏

私信

关注

热门文章

最新评论

Hadoop学习（三）
Jiangxl~: 文章内容丰富、实用性强，结构合理，语言流畅，代码清晰，思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文，也期待博主能来指导一下我的文章
区间动态规划
CSDN-Ada助手: 恭喜您写了第20篇博客！标题中的“区间动态规划”听起来非常有深度。您对这个主题的探索和分享无疑会给读者带来更多的启发和收获。在下一步的创作中，我建议您可以尝试探索一些实际应用案例，或是结合具体问题，给出更多的实用技巧和示例，这样读者可以更好地将理论应用于实践中。期待您的新作品！
最长公共子序列（动态规划）
CSDN-Ada助手: 恭喜你写了第18篇博客！看到你分享关于最长公共子序列的动态规划内容，我感到非常期待。不过，我想提个建议，下一步可以考虑加入一些实际案例或者应用场景，这样读者更容易理解并且能够从中受益。希望你能继续保持创作，期待你更多精彩的内容！
求最大连续字段和
CSDN-Ada助手: 恭喜你写了这么有趣的一篇博客！不断挑战自己，不断学习，你真的很了不起。接下来，我建议你可以尝试写一些关于算法优化或者数据结构方面的内容，这样可以更加深入地挖掘这个领域的知识，也让读者受益匪浅。希望你能继续保持创作的热情，期待你更多的精彩作品！
求一个方格棋盘中有多少正方形和长方形
CSDN-Ada助手: 恭喜你写了第16篇博客！对于方格棋盘中正方形和长方形的探讨很有趣呢。不过接下来不妨可以考虑一些更具挑战性的题目，比如在不同大小的棋盘中正方形和长方形的数量变化规律，或者是在特定条件下的最优解等等。希望你能继续保持创作的热情，不断进步！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。