Sqoop把mysql数据导入hive,hdfs采用parquet+snappy存储
背景:1.业务和业务数据量不断增加,需要用到hadoop进行数据分析和存储,现在将mysql数据到到hive,每个mysql表结构都差不多,现在以order_node为例,它的字段类型有bigint,varchar,int,tinyint(1),tinyint(4),datetime,decimal(18,6);2.mysql表有300多张,30多张表数据量超过1000万,有5个表数据量已经过亿;3.hdfs副本数为3,为了节省存储空间,需要用parquet存储,snappy压缩,parquet+sn