大数据离线数据导入集群方案

大数据其实有很多时候回碰见离线数据,比如常常有标准或者业务系统离线资源等等,这些往往会令我们比较头疼,倒不是多难,而是数据的导入比较繁杂,有时候都不完全是结构化数据

这里我给大家分享一下我遇到离线数据时的导入方法

场景一

如果你用的是原生Apache或者是HDP等集成技术,数据集群的数据管理工具是hive时,那么你完全可以把离线数据处理一下,比如空值补充 \N或者是其他的处理,把数据整理成你想要的样子,上传hdfs,之后load

这里也和刚接触大数据的朋友解释一下,在hive底层的架构中,如果你是直接null,那么hive会将它视为一个值为null的字符串,因为hive的底层用的是 \N 区分的空值

当然你建立表之后也可以通过修改表元数据,从而修改空值的识别方式,语句如下

alter table  mytable   set serdeproperties (‘serialization.null.format’ = ‘null’);

场景二

如果你用的是公司自己的产品,那么你先问问运维或者一、二线研发,问问支不支持如xlsx等其他形式导入数据,或者有没有相关的可以使用的数据横向同步的产品,如果有而且操作不是很麻烦那就用,如果没有或者不好用,那你就找一个可以操作的数据库,把数据用sql语句导进去,之后抽取就可以了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值