附书代码Github工程:https://github.com/Shadow-Hunter-X
管理表中装载数据
使用LOAD命令装载数据,分别可以从本地和HDFS上进行上传。
使用的命令分别是 LOAD DATA LOCAL INPATH ‘file://local_path’
LOAD DATA INPATH ‘HDFS://hdfs_path’
在本地文件是数据导入到Hive表中,使用 AdventureWorks下的DimAccount表说明,创建数据库和对应的表
LOAD DATA LOCAL 加载数据 , 从本地路径 (相关脚本可以在对应的github项目中下载)
LOAD DATA 加载数据 , 从HDFS上 (相关脚本可以在对应的github项目中下载)
通过查询向表中插入数据
* 首先创建一张和 FactInternetSales一样的表,但其为分区表(以orderdatekey作为分区列,其范围20101229-20140128): *单次查询,插入到分区表中(相关脚本可以在对应的github项目中下载)
多次查询,插入到分区表中(相关脚本可以在对应的github项目中下载)
动态插入到分区表中(相关脚本可以在对应的github项目中下载)
对于动态分区功能默认情况下没有开启。开启后以"严格"模式执行,在这种模式下要求至少有一列分区字段是静态的,这有助于阻止因设计错误导致查询产生
大量分区。
单查询创建和加载数据
使用语句 : CREATE TABLE TABLE_NAME AS SELECT ........
导出数据
如果数据文件恰好是用户需要的格式,那只需要简单拷贝文件夹或文件即可。
hdfs dfs -get HDFS://path file://path