Hive parquet表通过csv文件导入数据

mizuhokaga

已于 2024-09-18 15:28:13 修改

阅读量27

点赞数 1

文章标签： hive hadoop 数据仓库

于 2024-09-18 13:40:59 首次发布

本文为博主原创文章，转载请显著位置标明出处，未经博主允许不得用于商业目的。

本文链接：https://blog.csdn.net/qq_44831907/article/details/142331043

版权

1. background

已建好了 hive parquet 格式的表, 需要从服务器的csv导入数据至该hive表

2. step

提前上传csv至服务器 /path/temp.csv
创建 textfile 格式的中转表(这里使用内部表,方便删除) ,源表名dw_procurement.dwd_tc_comm_plant ,这里中转表加上了csv后缀

CREATE TABLE IF NOT EXISTS dw_procurement.dwd_tc_comm_plant_csv (
  `city` string, 
  `plant_address` string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

导入 csv 数据至中转表 ,在hive命令行下输入命令

load data local inpath '/path/temp.csv' into  table dw_procurement.dwd_tc_comm_plant_csv;

中转表数据转移至目标表,在hive命令行下输入命令

insert into dw_procurement.dwd_tc_comm_plant select * from dw_procurement.dwd_tc_comm_plant_csv;

附

1.你基于 a.csv 创建了外部表 A。
2.然后你执行了 DROP TABLE A。
3.接着你重新创建了一个表 A，但这次是基于 b.csv，而这两个文件的列结构相同，但数据内容不同。

你想确认重新创建的表 A 是否仍然使用的 a.csv 里的数据。

情况 1：重新创建表时指定了新的 LOCATION
如果你在重新创建表 A 时指定了新文件 b.csv 的路径，

例如：

CREATE EXTERNAL TABLE A (
    id INT,
    name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '/path/to/b.csv';

那么，表 A 将会使用 b.csv 中的数据。Hive 只会读取你在创建表时指定的文件路径的数据，并不会保留之前的 a.csv 数据。

情况 2：重新创建表时未指定 LOCATION

如果你在重新创建表 A 时没有指定新的 LOCATION，而 Hive 默认的 LOCATION 是原来 a.csv 的路径（例如 /user/hive/warehouse/<table_name>/），那么 Hive 将会再次使用原来的路径，表 A 仍然会读取 a.csv 中的数据。

CREATE EXTERNAL TABLE A (
    id INT,
    name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

在这种情况下，表 A 的数据仍然会是 a.csv 中的数据。

mizuhokaga

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫