Hive笔记学习1

最新推荐文章于 2024-07-24 21:14:44 发布

Stephen.X

最新推荐文章于 2024-07-24 21:14:44 发布

阅读量122

点赞数

文章标签： hive big data

本文链接：https://blog.csdn.net/qq_54068745/article/details/124715114

版权

1.1Hive 基本概念：

Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并
提供类 SQL 查询功能。
本质是：将 HQL 转化成 MapReduce 程序。（我一般理解为是hadoop的客户端，数据存储在hdfs上，而数据处理默认采用mr，当然也可以换成spark等引擎，需要先配置环境等）

运行机制：

1.2 Hive 的优缺点：

1) 操作接口采用类 SQL 语法，提供快速开发的能力（简单、容易上手）。
2) 避免了去写 MapReduce，减少开发人员的学习成本。
3) Hive 的执行延迟比较高，因此 Hive 常用于数据分析，对实时性要求不高的场合。
4) Hive 优势在于处理大数据，对于处理小数据没有优势，因为 Hive 的执行延迟比较高。
5) Hive 支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

缺点：

1．Hive 的 HQL 表达能力有限
（1）迭代式算法无法表达
（2）数据挖掘方面不擅长，由于 MapReduce 数据处理流程的限制，效率更高的算法却
无法实现。
2．Hive 的效率比较低
（1）Hive 自动生成的 MapReduce 作业，通常情况下不够智能化
（2）Hive 调优比较困难，粒度较粗

注：hive存储的数据一般可以理解为一次存入，多次读取，和主流的关系型数据库不一样。同时如果要写数据，或者说修改数据，都需要先把数据下载下来，再进行修改。

1.3 Hive的安装

此处省略安装过程，具体可以看安装hive的笔记。

1.hive的元数据库默认的是derby，这个默认数据库不支持多用户读写。一般需要换成mysql，所以我们首先先把数据库换成mysql。

2.我们去下载安装hive。此时会出现一些报错，可以看hive笔记。

注：hive是hadoop的一个client，所以我们每次启动hive的时候，需要先把hadoop先启动，具体的数据信息，我们可以在windows目录下访问hadoop看一些。

1.4 Hive数据类型

数据类型就不统一介绍，和mysql的数据类型很相似，主要用到的就那么几个。

其中还可以进行隐式的数据类型转化，例如：

隐式类型转换规则如下
（1）任何整数类型都可以隐式地转换为一个范围更广的类型，如 TINYINT 可以转
换成 INT，INT 可以转换成 BIGINT。
（2）所有整数类型、FLOAT 和 STRING 类型都可以隐式地转换成 DOUBLE。
（3）TINYINT、SMALLINT、INT 都可以转换为 FLOAT。
（4）BOOLEAN 类型不可以转换为任何其它的类型。

下一节我们直接学习DDL，和DML。

Stephen.X

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive笔记学习1

1.1Hive 基本概念：Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是：将 HQL 转化成 MapReduce 程序。（我一般理解为是hadoop的客户端，数据存储在hdfs上，而数据处理默认采用mr，当然也可以换成spark等引擎，需要先配置环境等）运行机制：1.2 Hive 的优缺点：1) 操作接口采用类 SQL 语法，提供快速开发的能力（简单、容易上手）。2) 避免了去写 MapReduc.
复制链接

扫一扫