主流大数据系统在后台的层次角色及数据流向

最近有不少质疑大数据的声音,这些质疑有一定的道理,但结论有些以偏概全,应该具体问题具体分析。对大数据的疑问和抗拒往往是因为对其不了解,需要真正了解之后才能得出比较客观的结论。

大数据是一个比较宽泛的概念,它包含大数据存储和大数据计算,其中大数据计算可大致分为计算逻辑相对简单的大数据统计,以及计算逻辑相对复杂的大数据预测。下面分别就以上三个领域简要分析一下:

第一,大数据存储解决了大数据技术中的首要问题,即海量数据首先要能保存下来,才能有后续的处理。因此大数据存储的重要性是毫无疑问的。

第二,大数据统计是对海量数据的分析统计和轻度挖掘,例如统计海量用户产品的日/月活跃度、用户基于地区的分布、用户历史操作、运营侧数据指标等,这些需要大数据计算平台的支持才能实现,对于拥有海量用户的互联网公司来说是不可或缺的技术。

第三,大数据预测领域才是争议最多的领域。事实上,预测必有误差、必有小概率事件,大数据预测的背后是各种机器学习/模式识别等深度挖掘算法,这些算法只是工具而已,用得好不好、恰不恰当还是要看应用的领域和使用者本身的能力。就像C++语言这个工具,适合做后台开发,不适合做网页前端,有C++编程很牛的程序员,也有编程很差的程序员,不能因为存在编程差的程序员而否定C++。

此外,大数据预测想要做到精准,门槛非常高,所以有很多声称使用大数据预测的产品,实际效果往往不佳,给人们造成了大数据预测普遍不行的印象。由于门槛高,真正能掌握大数据预测能力,做到精准的,目前只有很少数产品。

综上所述,大数据存储和大数据统计是海量用户产品不可或缺的技术,而对于大数据预测技术,小概率事件必然出现,且并不是每个人都能运用得好。所以不能笼统地说大数据没有用处,要看具体领域,以及产品背后的团队。

大数据经过最近几年的发展,它的基础设施——各个大数据存储和计算平台已经比较成熟,业界主流的大数据平台在后台的层次角色一般如下图所示:

 

在物理层,根据不同的使用场景以及成本预算的考虑,会采用不同的硬件配置方案。对于自身容错备份机制较好的大存储系统,只需使用SATA硬盘即可;若所承载的平台自身容灾机制较弱甚至是无,且数据比较重要,则可以使用RAID或者SAS硬盘。对于大部分存储和计算平台来说,网络一般不是最大的瓶颈,所以使用千兆网卡和交换机即可;对于内部网络吞吐量非常大,内部网络IO已经成为瓶颈,并且时效性要求非常高的核心业务,可以使用万兆网卡和交换机提高性能。

 

在计算性能上ÿ

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值