1.合并csv文件
cat *.csv > full.csv
若需要删除表名:
#删除该文件夹下所有csv文件的第一行
sed -i "1d" *.csv
#删除该文件夹下的所有txt文件第一行
sed -i "1d" *.txt
#删除前三行 sed -i "1,3d" *.csv
方法一:
2.将合并文件上传到hdfs
hdfs fs -put 文件路径 hdfs路径
3.load到hive表
load data inpath file_hdfs_path overwrite into table table_name [partition(partition_string=''')];
方法二:
load data local inpath file_path overwrite into table table_name [partition(partition_string=''')];
异常一:导入hive的数据出现乱码
解决一:ALTER TABLE ** SET SERDEPROPERTIES ('serialization.encoding'='GBK');
或者创建hive表是添加with serdeproperties (‘charset’ = ‘GBK’)
解决二::vim中更改csv文件的编码
:set fileencoding
即可显示文件编码格式。
:set fileencoding=utf-8
即可更改文件编码
如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题,那么你可以在
~/.vimrc 文件中添加以下内容:
set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936
这样,就可以让vim自动识别文件编码(可以自动识别UTF-8或者GBK编码的文件),其实就是依照 fileencodings提供的编码列表尝试,如果没有找到合适的编码,就用latin-1(ASCII)编码打开