将固定分隔符的TXT文件导入Hive表

0.注意点:

文件字符集编码:UTF-8 ; 
文件数据:只有数据,按照固定分隔符分割,换行符为一条数据。

1.创建临时表

创建加载文件的临时表(只存放增量数据)和落地表临时表 
字段类型全部设置为字符串
*注:可以不创建外部表,外部表impala访问不到
CREATE [EXTERNAL] TABLE stg.table_name_ext(
  column_01 string, 
  column_02 string, 
  column_03 string   
  )
row format delimited fields terminated by '|' lines terminated by '\n' 
STORED AS TEXTFILE   
LOCATION '路径'  --为了加载方式二指定存储路径,如果使用方式一可以不指定。

2.创建落地表

落地表,可以新增字段,字段类型设置,分区等数据转换
CREATE TABLE stg.table_name(
  column_01 decimal(12,0), 
  column_02 string, 
  column_03 string,
  column_new string
  )
PARTITIONED BY (file_date STRING)
STORED AS PARQUET
TBLPROPERTIES ('PARQUET.COMPRESSION'='SNAPPY');

3.加载文件到临时表里面

方式一:hive语句

命令:
load data [local] inpath '/export/datas/table_name.txt' overwrite into table stg.table_name
参数说明:
load data:表示加载数据
local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表
inpath:表示加载数据的路径

方式二:hdfs命令

命令:
--1.将文件推送到hdfs
hdfs fs -put -f /export/datas/table_name.txt /hive表路径/
--2.hive执行 修复元数据
msck repair table stg.table_name
--3.impala执行 刷新元数据
invalidate metadata stg.table_name


参数说明:
hdfs fs -put: 将本地文件加载到hdfs上面
-f :表示如果hdfs上面文件已存在强制覆盖 ,注意点只有文件名称相同才会覆盖,如果每次文件名称不同建议使用方式

4.临时表落地

将临时表的数据加载到落地表 可以使用impala执行
insert overwrite table stg.table_name paritition(file_date)
 select cast(column_01 as decimal(12,0)) as column_01
        column_02, 
        column_03,
        ${column_new} as column_new,
		${file_date} as file_date
   from stg.table_name_ext;

5.清除留痕

drop table stg.table_name_ext;
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

脸ル粉嘟嘟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值