Hive学习(一)

一、Hive基本概念

1.简介:是基于Hadoop的一个数据仓库工具,可以将结 构化的数据文件映射成一张表,并提供       SQL查询功能,用于解决海量数据结构化日志的数据统计工具。

2.本质:将HQL转换成MapReduce程序

1)Hive处理的数据存储在HDFS

2)Hive分析数据底层的实现是MapReduce

3)执行程序运行在Yarn上

3.优点

1)操作接口使用SQL语法,简单、容易上手。

2)避免了编写MapReduce,减少开发人员的学习成本。

3)Hive执行延迟比较高(常用于数据分析,对实时性要求不高的场合,

4)由于Hive的延迟执行较高,对处理大数据比较有优势。

5)支持用户自定义函数,可以根据用户自身需求实现自己的函数。

4.缺点

1)由于MapReduce数据处理流程的限制,效率更高的算法无法实现(不擅长数据挖掘);迭代式无法表达。

2)调优比较困难,颗粒较粗;hive自动生成的MapReduce作业,一般不够智能化。

5.架构

1)Client(用户接口)

CLI(提供交互shell方式接入hive)、JDBC/ODBC(java访问hive),WEBUI(浏览器访问hive)

2)Meta(元数据)

包括表名、表所属的数据库、表的拥有者、列/分区字段、表的类型和表的数据所在目录等。

3)Hadoop集群

使用HDFS进行存储,使用MapReduce进行计算

4)驱动器

解析器:对SQL进行语法分析和语义分析

编译器:将AST编译生成逻辑执行计划

优化器:对逻辑执行计划进行优化

执行器:将逻辑执行计划转换成可以运行的物理计划。

二、Hive的数据类型

分为基本类型和复合数据类型。

1.基本数据类型

注:String类型相当于数据库的varchar类型(可变字符串),区别是不能声明其中最多储存多少个字符,理论上可以存储2GB的字符数。

2.复合数据类型

1)直接用下标进行访问(与c数组相似)

2)map字段的元素访问方式

//根据key键和value值进行访问
select mp["name"] as name,mp["age"] as age from test;

3)struct的访问

//查询语法
select str.name from test1;

3.数据类型转换

1.显式转换

1)强制转换浮点数为int

select cast("1.23" as int)

2)强制转换浮点型为字符串

select cast("1.23" as string);

2.隐式转换(系统会进行自动类型转换)

1)tinyint-->int-->bigint

2)所有整数类型、float 和 string类型都可以隐式地转换成double。

3)tinyint、smallint、int都可以转换为float。

4)boolean类型不可以转换为任何其它的类型。

三、DDL操作

1.数据库DDL操作

1)创建数据库

hive> show databases;

2)显示数据库

hive> show databases like 'db_hive*';

3)查看数据库详情

hive> desc database db_hive;

4)显示数据库详细信息

hive> desc database extended db_hive;

5)切换当前数据库

hive > use db_hive;

6)删除数据库

hive> drop database if exists db_hive;

7)如果数据库中有表存在,那么要加cascade强制删除

hive> drop database if exists db_hive cascade;

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值