HDFS作为中间存储引擎：Linux批量导入csv文件到hive

最新推荐文章于 2022-11-16 17:32:53 发布

是女汉子不是女汉子

最新推荐文章于 2022-11-16 17:32:53 发布

阅读量871

点赞数 1

分类专栏：存储引擎 Hive 文章标签： hdfs hive csv

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tayhh/article/details/103423628

版权

Hive 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

1.合并csv文件

cat *.csv > full.csv

若需要删除表名：

#删除该文件夹下所有csv文件的第一行

sed -i "1d" *.csv

#删除该文件夹下的所有txt文件第一行

sed -i "1d" *.txt

#删除前三行 sed -i "1,3d" *.csv

方法一：

2.将合并文件上传到hdfs

hdfs fs -put 文件路径 hdfs路径

3.load到hive表

load data inpath file_hdfs_path overwrite into table table_name [partition(partition_string=''')];

方法二：

load data local inpath file_path overwrite into table table_name [partition(partition_string=''')];

异常一：导入hive的数据出现乱码

解决一：ALTER TABLE ** SET SERDEPROPERTIES ('serialization.encoding'='GBK');

或者创建hive表是添加with serdeproperties (‘charset’ = ‘GBK’）

解决二：：vim中更改csv文件的编码

:set fileencoding
即可显示文件编码格式。

:set fileencoding=utf-8

即可更改文件编码

如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题，那么你可以在
~/.vimrc 文件中添加以下内容：
set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936
这样，就可以让vim自动识别文件编码（可以自动识别UTF-8或者GBK编码的文件），其实就是依照 fileencodings提供的编码列表尝试，如果没有找到合适的编码，就用latin-1(ASCII)编码打开

是女汉子不是女汉子

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HDFS作为中间存储引擎：Linux批量导入csv文件到hive

1.合并csv文件cat *.csv > full.csv若需要删除表名：#删除该文件夹下所有csv文件的第一行sed -i "1d" *.csv#删除该文件夹下的所有txt文件第一行sed -i "1d" *.txt#删除前三行 sed -i "1,3d" *.csv方法一：2.将合并文件上传到hdfshdfs fs -put 文件路径 hdf...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。