HDFS作为中间存储引擎:Linux批量导入csv文件到hive

1.合并csv文件

cat *.csv > full.csv

若需要删除表名:

#删除该文件夹下所有csv文件的第一行

sed -i "1d" *.csv

#删除该文件夹下的所有txt文件第一行

sed -i "1d" *.txt

#删除前三行 sed -i "1,3d" *.csv

 

方法一:

2.将合并文件上传到hdfs

hdfs fs -put 文件路径 hdfs路径

3.load到hive表

load data inpath file_hdfs_path overwrite into table table_name [partition(partition_string=''')];

方法二:

load data local inpath file_path  overwrite into table table_name [partition(partition_string=''')];

异常一:导入hive的数据出现乱码

解决一:ALTER TABLE ** SET SERDEPROPERTIES ('serialization.encoding'='GBK');

或者创建hive表是添加with serdeproperties (‘charset’ = ‘GBK’)

解决二::vim中更改csv文件的编码

:set fileencoding
即可显示文件编码格式。

:set fileencoding=utf-8

即可更改文件编码

如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题,那么你可以在
~/.vimrc 文件中添加以下内容:
set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936
这样,就可以让vim自动识别文件编码(可以自动识别UTF-8或者GBK编码的文件),其实就是依照 fileencodings提供的编码列表尝试,如果没有找到合适的编码,就用latin-1(ASCII)编码打开

 

 

 

 

 

 

 

 

 

 

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值