0.注意点:
文件字符集编码:UTF-8 ;
文件数据:只有数据,按照固定分隔符分割,换行符为一条数据。
1.创建临时表
创建加载文件的临时表(只存放增量数据)和落地表临时表
字段类型全部设置为字符串
*注:可以不创建外部表,外部表impala访问不到
CREATE [EXTERNAL] TABLE stg.table_name_ext(
column_01 string,
column_02 string,
column_03 string
)
row format delimited fields terminated by '|' lines terminated by '\n'
STORED AS TEXTFILE
LOCATION '路径' --为了加载方式二指定存储路径,如果使用方式一可以不指定。
2.创建落地表
落地表,可以新增字段,字段类型设置,分区等数据转换
CREATE TABLE stg.table_name(
column_01 decimal(12,0),
column_02 string,
column_03 string,
column_new string
)
PARTITIONED BY (file_date STRING)
STORED AS PARQUET
TBLPROPERTIES ('PARQUET.COMPRESSION'='SNAPPY');
3.加载文件到临时表里面
方式一:hive语句
命令:
load data [local] inpath '/export/datas/table_name.txt' overwrite into table stg.table_name
参数说明:
load data:表示加载数据
local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表
inpath:表示加载数据的路径
方式二:hdfs命令
命令:
--1.将文件推送到hdfs
hdfs fs -put -f /export/datas/table_name.txt /hive表路径/
--2.hive执行 修复元数据
msck repair table stg.table_name
--3.impala执行 刷新元数据
invalidate metadata stg.table_name
参数说明:
hdfs fs -put: 将本地文件加载到hdfs上面
-f :表示如果hdfs上面文件已存在强制覆盖 ,注意点只有文件名称相同才会覆盖,如果每次文件名称不同建议使用方式
4.临时表落地
将临时表的数据加载到落地表 可以使用impala执行
insert overwrite table stg.table_name paritition(file_date)
select cast(column_01 as decimal(12,0)) as column_01
column_02,
column_03,
${column_new} as column_new,
${file_date} as file_date
from stg.table_name_ext;
5.清除留痕
drop table stg.table_name_ext;