Hive笔记学习1

1.1Hive 基本概念:

Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并
提供类 SQL 查询功能。
本质是:将 HQL 转化成 MapReduce 程序。(我一般理解为是hadoop的客户端,数据存储在hdfs上,而数据处理默认采用mr,当然也可以换成spark等引擎,需要先配置环境等

运行机制:

 

1.2 Hive 的优缺点:

1) 操作接口采用类 SQL 语法,提供快速开发的能力(简单、容易上手)。
2) 避免了去写 MapReduce,减少开发人员的学习成本。
3) Hive 的执行延迟比较高,因此 Hive 常用于数据分析,对实时性要求不高的场合。
4) Hive 优势在于处理大数据,对于处理小数据没有优势,因为 Hive 的执行延迟比较高。
5) Hive 支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。

缺点:

1.Hive 的 HQL 表达能力有限
(1)迭代式算法无法表达
(2)数据挖掘方面不擅长,由于 MapReduce 数据处理流程的限制,效率更高的算法却
无法实现。
2.Hive 的效率比较低
(1)Hive 自动生成的 MapReduce 作业,通常情况下不够智能化
(2)Hive 调优比较困难,粒度较粗

注:hive存储的数据一般可以理解为一次存入,多次读取,和主流的关系型数据库不一样。同时如果要写数据,或者说修改数据,都需要先把数据下载下来,再进行修改。

1.3 Hive的安装

此处省略安装过程,具体可以看安装hive的笔记。

1.hive的元数据库默认的是derby,这个默认数据库不支持多用户读写。一般需要换成mysql,所以我们首先先把数据库换成mysql。

2.我们去下载安装hive。此时会出现一些报错,可以看hive笔记。

注:hive是hadoop的一个client,所以我们每次启动hive的时候,需要先把hadoop先启动,具体的数据信息,我们可以在windows目录下访问hadoop看一些。

1.4 Hive数据类型

数据类型就不统一介绍,和mysql的数据类型很相似,主要用到的就那么几个。

 

其中还可以进行隐式的数据类型转化,例如:

隐式类型转换规则如下
(1)任何整数类型都可以隐式地转换为一个范围更广的类型,如 TINYINT 可以转
换成 INT,INT 可以转换成 BIGINT。
(2)所有整数类型、FLOAT 和 STRING 类型都可以隐式地转换成 DOUBLE。
(3)TINYINT、SMALLINT、INT 都可以转换为 FLOAT。
(4)BOOLEAN 类型不可以转换为任何其它的类型。

下一节我们直接学习DDL,和DML。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值