1.向管理表中装载数据
再次强调,Hive没有行级别的数据插入、数据更新和删除操作。
LOAD DATA LOCAL INPATH '${env:HOME}/california-employees'
OVERWRITE INTO TABLE employees
PARTITION (country = 'US', state = 'CA');
- 如果分区目录不存在的话,这个命令会先创建分区目录,然后再将数据拷贝到该目录下。
- 如果目标是非分区表,那么语句中应该省略PARTITION子句。
- 如果使用了LOCAL这个关键字,那么这个路径应该为本地文件系统路径。数据将会被拷贝到目标位置。如果省略掉LOCAL关键字,那么这个路径应该为分布式文件系统路径。也就是说,LOAD DATA LOCAL…拷贝本地数据到位于分布式文件系统上的目标位置,而LOAD DATA…转移数据到目标位置。
- 如果用户指定了OVERWRITE关键字,那么目标文件夹中的之前存在的数据将会被先删除掉。如果没有这个关键字,仅仅会把新增的文件追加到目标文件夹中而不会删除之前的数据。然而,如果使用OVERWRITE关键字并且目标文件夹中已经存在和装载的文件同名的文件,那么旧的同名文件将会被覆盖重写。如果没有使用OVERWRITE关键字并且目标文件夹中已经存在和装载的文件同名的文件,那么会保留之前的文件并且会重命名新文件为“之前的文件名_序列号”。
- INPATH子句要求这个路径下不可以包含任何文件夹。
2.通过查询语句向表中插入数据
INSERT语句允许用户通过查询语句向目标表中插入数据。
假设有一个叫staged_employees