大数据(一)大数据平台和应用简述


2021-08-20

说明

  • 本博客每周五更新一次。

  • 本文主介绍大数据是什么,现有软件架构和主流框架有哪些,具体应用是什么,还有个人的一些拙见。

  • 所有内容理论为主,不牵涉太多专业知识,目标是简单易懂。

分享

什么是大数据?

  • 我常问自己,可一直没有一个很好的答案,直到一次电视综艺节目中,一个企业老板问询大数据求职者时,他的回答让我豁然开朗。
  • 大概意思:大数据重点是大,T、P级数据超过了普通单台计算机的存储和计算上限,大数据就是存储和计算海量数据的技术。
  • 意思上看这话没毛病,贴合普通人的思维方式,看到的人很快就知道,大数据就是处理海量到无法想象数据的技术。
  • 技术角度有点单薄,大数据技术几十个软件系统,不是简单一句话就能概括,当然日常只会使用其中一部分。

大数据平台搭建

  • 绝大多数大数据平台基于Apache开源基金会发布的hadoop软件为基础搭建,当前市场上有两个版本,Apache 开源版和Apache 二次开发版,市场上流行平台搭建方式如下。

    • 原生apache版本,免费开源,资料丰富,相关功能组件需要版本适配和优化,没有统一平台化管理软件,技术难度高。
    • cdp
      • cloudera manager(CDH)和hortonworks(HDP)两家大数据平台公司2019年合并为一家公司,两家公司原有CDH和HDP产品是在apache软件基础上开发,有收费和免费版本,默认并适配常用组件,提供统一平台化管理软件,安装通过web页面操作,简单易用。合并后新产品收费。
    • MapR

      • 收费软件,与cdp类似,收费软件。
    • DataSphere Studio(简称DSS)

      • 国内微众银行开发并开源的大数据平台,自研很多中间件。

大数据应用

  • 大数据技术普遍应用在传统数据计算和AI网络训练。
  • 传统计算主要存在通信和大型互联网公司,计算分析实时和历史数据,实现用户分析和追踪,日常的广告推送和快递提醒,都是大数据的产物,简单的说,所有需要海量数据计算并汇聚结果的地方,都有大数据的参与。
  • 近年AI技术蓬勃发展,离不开大数据这片土壤,深度器学习效果,依赖于神经网络结构设计和海量数据训练模型,理论上,神经网络结构完美时,数据量越大场景越多,网络能得到充分优化,计算效果越好。

总结

  • 一次偶然机会进入大数据行业,凭着过去自学的零星知识,跌跌撞撞学习成长,几年后,终于有了一些自己的见解,以上内容仅做分享。

  • 具体技术细节详见各组件专题博客。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值