cdh
Rudolf__
努力成为有思想的人
展开
-
Sqoop把mysql数据导入hive,hdfs采用parquet+snappy存储
背景:1.业务和业务数据量不断增加,需要用到hadoop进行数据分析和存储,现在将mysql数据到到hive,每个mysql表结构都差不多,现在以order_node为例,它的字段类型有bigint,varchar,int,tinyint(1),tinyint(4),datetime,decimal(18,6);2.mysql表有300多张,30多张表数据量超过1000万,有5个表数据量已经过亿;3.hdfs副本数为3,为了节省存储空间,需要用parquet存储,snappy压缩,parquet+sn原创 2020-12-03 15:36:29 · 2153 阅读 · 1 评论 -
CDH 搭建impala,kudu 建表插入数据问题总结
环境前提:cdh安装了hdfs/hive/yarn/zk/impala/kudu,所以集群都启动,且各个服务web-ui都可以访问,kudu-master-ui找不到tservers,端口都启动正确,用netstat -anlp|grep 端口1.impala不能插入数据,unable to find SASL plugin: PLAIN 主要是确实依赖, yum install gcc python-devel yum install cyrus-sasl*2.不能创建kudu表,...原创 2020-11-07 14:55:51 · 1632 阅读 · 1 评论
分享