做大数据心得

 

 

1 SQL娴熟,这体现在ETL的hive阶段,自定义函数,分析函数,SQL各种关联写 (类dba倾向)

 

2 hive SQL优化要懂

 

3 mr流程要很熟悉, MR 优化,配置要知道,这在hive sql优化上有帮助,甚至有的hive写法很消耗效率,

   启动多个mr的时候,

   能自定义mr 来替代

 

4 大数据的ETL流程架构结合(mr hive hbase)

   大数据的流处理结构结合(flume kafka storm hbase)

 

5 spark 替代方案

 

6 数据完整性, 这里是指 从关系库oracle等到 hadoop系统后,

   你处理的数据个数要两者保证一致,  比如前者5000W 到后者 4900W

   你在大数据业务下处理后的数据结果要和业务要求匹配对,比如前者期待结果为 15元 后者结果为14元

 

7 Linux运维能力,这里为啥提这一点,在配合运维同事测试的时候,对问题的定位,这种对hadoop的熟悉

   linux的熟悉程度,决定了你处理问题的速率, 也间接决定了你的威信,价值。

 

这个过程需要很多硬功的积累,注定要很多压力,纠结, 且行且努力吧。

  

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值