将固定分隔符的TXT文件导入Hive表

脸ル粉嘟嘟

已于 2023-06-07 13:39:51 修改

阅读量1k

点赞数

分类专栏： ▼ BigData ——hive 文章标签： hive hadoop 大数据 hdfs

于 2023-06-06 15:37:08 首次发布

本文为IT晓白博主原创文章，欢迎大家转载，相互学习请附上博文链接！

本文链接：https://blog.csdn.net/qq_38617531/article/details/131068881

版权

▼ BigData 同时被 2 个专栏收录

49 篇文章 2 订阅

订阅专栏

——hive

14 篇文章 0 订阅

订阅专栏

0.注意点：

文件字符集编码：UTF-8 ; 
文件数据：只有数据,按照固定分隔符分割，换行符为一条数据。

1.创建临时表

创建加载文件的临时表（只存放增量数据）和落地表临时表 
字段类型全部设置为字符串
*注：可以不创建外部表，外部表impala访问不到

CREATE [EXTERNAL] TABLE stg.table_name_ext(
  column_01 string, 
  column_02 string, 
  column_03 string   
  )
row format delimited fields terminated by '|' lines terminated by '\n' 
STORED AS TEXTFILE

LOCATION '路径'  --为了加载方式二指定存储路径，如果使用方式一可以不指定。

2.创建落地表

落地表，可以新增字段，字段类型设置,分区等数据转换

CREATE TABLE stg.table_name(
  column_01 decimal(12,0), 
  column_02 string, 
  column_03 string,
  column_new string
  )
PARTITIONED BY (file_date STRING)
STORED AS PARQUET
TBLPROPERTIES ('PARQUET.COMPRESSION'='SNAPPY');

3.加载文件到临时表里面

方式一：hive语句

命令：

load data [local] inpath '/export/datas/table_name.txt' overwrite into table stg.table_name

参数说明：

load data：表示加载数据
local：表示从本地加载数据到hive表；否则从HDFS加载数据到hive表
inpath：表示加载数据的路径

方式二：hdfs命令

命令：

--1.将文件推送到hdfs
hdfs fs -put -f /export/datas/table_name.txt /hive表路径/
--2.hive执行 修复元数据
msck repair table stg.table_name
--3.impala执行 刷新元数据
invalidate metadata stg.table_name

参数说明：

hdfs fs -put： 将本地文件加载到hdfs上面
-f ：表示如果hdfs上面文件已存在强制覆盖 ,注意点只有文件名称相同才会覆盖，如果每次文件名称不同建议使用方式

4.临时表落地

将临时表的数据加载到落地表 可以使用impala执行

insert overwrite table stg.table_name paritition(file_date)
 select cast(column_01 as decimal(12,0)) as column_01
        column_02, 
        column_03,
        ${column_new} as column_new,
		${file_date} as file_date
   from stg.table_name_ext;