Hive知识点总结

最新推荐文章于 2022-04-28 18:54:49 发布

李功林

最新推荐文章于 2022-04-28 18:54:49 发布

阅读量214

点赞数

分类专栏：零基础学习大数据文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43363946/article/details/106159439

版权

零基础学习大数据专栏收录该内容

16 篇文章 0 订阅

订阅专栏

hive基础

hive 是数据仓库，用来分析历史数据
目的是为了方便不会java的人员也可以使用MR分析数据。
hive基于hdfs，所有数据存储在hdfs上，hive的所有擦操作都是hdfs或者MR操作

hive搭建

本地模式，采用内存数据库derby，几乎不用
单用户模式
多用户模式
hive的搭建主要是mysql的配置信息以及hdfs存储数据的路径

hiveSql

DDL
1. 建表：Create/Drop/Truncate Table
2. 分区：Alter Table/Partition/Column
DML
1. 加载数据 Loading files into tables
  1. insert into （执行满、效率低）
  2. load （执行快、但是会将所有数据导入到同一目录）
  3. from table1 insert into table2 select col1，col2 …..

hive分区

为了提高查询效率，将不同的数据文件存放到不同的目录，查询时可以只查询部分目录，分区设计要跟业务相结合（粒度不能过细，也不能过粗）
alter table tablename add partition (col=val)(添加分区的字段在定义表的时候应该已经给出；
alter table tablename drop partition (col=val)(删除会将符合条件的分区全部删除)

Serde、beeline、jdbc

Serde：序列化与反序列化，定义了数据读取的格式规范（正则）
beeline：提供了另一种访问hive的客户端方式，与hiveserver2一起使用
1. 使用beeline是所有命令前都要加！
2. hive默认不进行用户名密码校验
jdbc：必须访问hiveserver2:10000

hive函数

udf:一进一出
udaf:多进一出(聚合函数）
udtf:一进多出（explode)
自定义函数
1. 利用Java代码实现，继承UDF方法
2. 实现evaluate方法
3. 将程序打包到hive 所在的服务器
4. 进入hive 添加jar文件，add jar ‘/root/xxxjar’
5. Create temporary function tm as 'com.sxt.XXX';

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive知识点总结

hive基础hive 是数据仓库，用来分析历史数据目的是为了方便不会java的人员也可以使用MR分析数据。 hive基于hdfs，所有数据存储在hdfs上，hive的所有擦操作都是hdfs或者MR操作hive搭建本地模式，采用内存数据库derby，几乎不用单用户模式多用户模式 hive的搭建主要是mysql的配置信息以及hdfs存储数据的路径hiveSqlDDL 建表：Create/Drop/Truncate Table 分区：Alter Table/Par...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。