hive初学笔记

一 hive当中所支持的数据类型
基本类型

https://cn.dll-files.com/

 原始数据类型

  • 整型
  • TINYINT — 微整型,只占用1个字节,只能存储0-255的整数。
  • SMALLINT– 小整型,占用2个字节,存储范围–32768 到 32767。
  • INT– 整型,占用4个字节,存储范围-2147483648到2147483647。
  • BIGINT– 长整型,占用8个字节,存储范围-2^63到2^63-1。
  • 布尔型
  • BOOLEAN — TRUE/FALSE
  • 浮点型
  • FLOAT– 单精度浮点数。
  • DOUBLE– 双精度浮点数。
  • 字符串型
  • STRING– 不设定长度。

复杂类型

  • Structs:一组由任意数据类型组成的结构。比如,定义一个字段C的类型为STRUCT {a INT; b STRING},则可以使用a和C.b来获取其中的元素值;
  • Maps:和Java中的Map没什么区别,就是存储K-V对的;
  • Arrays:就是数组而已;

三种部署方式
1.本地模式,元数据存在本地deby
2.单用户模式,存到mysql
3.远程服务器模式

二 DDL DML
DDL 数据定义语言
DML 数据操作语言

要学会看官方文档。

创建表

1.定义字段
2.定义序列化和反序列化,指定分隔符

external 指定外部表,需要指定数据存放的位置,指定hdfs的路径,用location。不指定外部表,就是在配置文件里面的那个路径。

内部表,外部表
内部表和外部表的区别在于外部表在创建时会指定数据存放目录,创建的时候要加external,删除的时候内部表会连同数据一起删除,而外部表只删除元数据,实际数据不会删除。
因为内部表数据是由hive维护,而外部表不是。

创建表还有的方式

还有一种方式可以将子查询直接放入新表。
create table … as select … 将查询结果数据放到目标表。
还有一个
create table … like… 只是元数据复制一份

分区:
hive分区,举个栗子,加入按天分区,每天产生的日志存储在对应每一天的目录里面。
也可以按照业务类型分区,加入我们按性别分区,
记住: 分区字段不能在表的列名里面。

如果我们差指定分区的呢?直接用where 就行
修改分区:
分区是可以添加的 add
删除分区:drop ,它可能会造成数据丢失,外部表不会,内部表会。

beeline
之前我们是直接操作hive,
连接beeline 有两种方式

regex
我们可以通过正则对数据进行处理。比如我们爬虫爬网页,还会爬下来很多标签。

hive 函数

有自带的函数,也有自定义函数,自定义函数可以自己定义函数。 可以通过java代码来实现。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值