关于大数据技术栈的一些总结

什么是大数据平台?

基本都是基于hadoop生态圈的一个成熟的产品,像CDH、CDP、阿里云Dataworks等等,这种成熟的厂商把hadoop包装起来,然后提供卖给我们。包括厦航、兴业、国网电力等等都是买的这类的大数据平台

这种买来的大数据平台,自己不用去维护,出问题了就让厂商处理,提供的功能就是:把数据从原系统抽取到这个大数据平台,然后它的加工效率会比较高、抽取效率会比较高、计算能力会比较强、也不用我们去维护搭建hadoop集群等等
就比如兴业自己的业务数据,就通过阿里云的抽数工具,能很快的抽取到阿里云的云平台上。然后在他们的云平台上写sparkSQL或者别的分布式计算SQL,计算效率也高一些。最后再把SQL计算出来的结果,回写到兴业自己的业务系统这边来

其实整个逻辑就是这样,就蛮简单的,其实本质就是写SQL,然后数据建模,我觉得最核心的就是数据建模。一个表的表结构建的比较好的话,它用起来效率就很高,最核心的就是数据建模,然后SQL性能优化(我这五年的工作经验就总结这几句话了,已经被老铁学走了,你已经可以去改行做大数据了,到时候面试的时候就跟别人吹一下,就是这样,大家就觉得你很懂,然后就给你街薪了)

其他的都是搬砖,其他那些底层的东西,本质上没什么价值啦,就是说你自己搭一套,还不如说直接去Oracle买一个,或者是阿里云平台、CDH、CDP买一个。这个其实很简单嘛,没有什么,就是说没必要自己去种一个田,然后收割那些米,然后回家煮,现在都是市场上都都把菜把米都做好了,然后我们去把它买回来,最后做出我们自己想要的菜。阿里云平台、CDH、CDP,他们做的就是种田、种米等来提供原材料,提供厨房的启动环境

市场上都是把菜把米都做好了,就我们买回来,然后去炒菜就可以了,这种都是他们都是高效低成本,然后专业化的,那我们再自己去搞一套就。没有什么意义,那本质就是这样,阿里云它就是这样,就是一个这种东西

其实本质上你就可以理解为是一个Oracle数据库,因为Oracle也是买来的,它也可以提供数据存储、计算的服务,Oracle本身出了问题,就找Oracle厂商,业务计算SQL出了问题,当然就我们自己处理

它就是hadoop,因为hadoop它是开源的,然后阿里、CDH、CDP等等大数据平台厂商,他们就是再去把它封装,封装的更好用一点,那我们就省的去去安装hadoop、安装Spark,安装hive、然后还要考虑他们的兼容性啊,系统的兼容性啊,还要提升他的计算效率呀,这些都厂商来处理,因为这些他们很专业,就是相当于他是专门就是做大餐的,然后我们自己做一顿就没那么好吃

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值