对于比较大的数据文件,无论是在excel中还是txt中,打开会很慢,在excel中最多容纳一百多万行。下面根据我自己的实战经验分享给大家,我是根据条数切分的,还可以根据文件大小进行切分。可以用split,也可以用head。
首先可以查看下数据有多少条:
create table test as
SELECT id,row_number() over (partition by to_date(create_time) order by id asc) as rank FROM p_member where day='2018-10-30' ;
select max(rank) from test ;----查看数据有多少条 我的数据一共1660 0000条
上面这些可以在hive中运行,也可以在xshell中运行;
下面我要介绍的就是切分数据了,我是先把数据导入txt中,让后在进行切分
hive -e'这里要设置下队列,在xshell中运行hive语句一般都要设置队列吧
SELECT id,row_number() over (partition by to_date(create_time) order by id asc) as rank FROM p_member where day='2018-10-30' ;
'>/home/ql1030.txt;----在xshell中下载txt格式的数据,下载目录根据自己的情况设置吧
下面命令把ql1030.txt分割为多个文件,每个txt不超过5000000行.
split -l 5000000 example.txt -d -a 4 split_file