大数据到底什么,大数据科普

转载:https://yq.aliyun.com/articles/57136

我们还是具体说说,为什么需要大数据吧。看起来是有点多此一举,不是很明白吗!?有价值。我们需要讲到问题的核心,大数据对于企业,就是提高效率、提升竞争力的;对于社会,可以拯救生命,造福人类。国家提出了互联网+的概念,其实我们仔细想想,其核心是 大数据+ 。现在比较高大上的无人驾驶、基因测序、智能交通、人工智能等其核心对数据的处理。
screenshot


啥时候用?

有的人说,我不可能一开始就造一个大数据平台吧。我感觉用excel就可以做数据分析了,那也是可以的。不过,你还是得考虑下,如果一直用excel做数据分析,那也还说明你还没有步入大数据时代。这个也是好事情,因为你没有使用大数据的利器,你公司还没有倒闭。等你合理使用大数据后,你的企业可能会腾飞起来。 一般来讲,企业可能会有以下几种原因没有去建设大数据平台。注意,成本往往不是核心的因素,在风投市场,你说我用大数据来提高生产力,挖掘数据价值,只要你说的真是那么回事情,你的公司的估值立马提升。对于传统做起来的公司,根本不差这么点钱。

 

screenshot

场景

大数据处理场景,我们一般分为4类。

screenshot

  • 离线分析,具体讲就是 数据是先存储在一个地方,后续再分析的,往往一般特别指写好程序,按照一定的周期固定运行的。
  • 流式数据处理,指数据一条条流过来的。这类数据处理具有很高的时效性,往往是数秒钟的延迟,在一些特别的场景(比如风控)到毫秒的场景。
  • 大数据数据存储服务,在单机如mysql无法满足需求的时候,需要大数据的在线存储服务,通过分布式的能力提供在线服务的能力。目前在hadoop体系中,特别是国内,hbase用的比较多。
  • ad-hoc分析,就是用户有一个想法,这个想法用户想及时查询数据,一般是运营同学或者数据分析的同学。还有一些,比如计算学习算法的参数调整,往往用户需要加载一点数据,再验证,看下结果,再调整参数(这个也是为什么spark比hadoop从易用层面更加适合机器学习场景的原因。
离线分析

screenshot
典型的场景是广告里面的精准营销(前面也提了下),为了做这个一般需要:

  • 尽量收集到关于用户更多的数据,为了做用户画像,这些数据从不同的地方来,上面分析过主要的四个途径。
  • 数据一般直接存储在OSS、HDFS中。
  • 通过离线处理,机器学习的分类等算法(一般在E-MapReduce推荐使用spark或者spark mllib机器学习算法库),给用户打标签,比如爱好、性别等,尽量刻画一个用户,还原在现实生活中的状态。期间会除去很多的噪音,细节点很多,需要不断优化(一般数据越多,越精准)。
  • 后续 广告通过相关特征匹配推荐打标签的用户,再通过用户的点击率等信息沉淀数据,反过来优化算法。
流式处理

screenshot
典型的场景是故障检测(比如灾难检测):

  • 在需要检测的点上,部署很多传感器(比如煤矿),这些传感器不断的产生大量的数据。
  • 这些数据通过网络(4g或者专线)上传到云中的logservices
  • E-MapReduce中启动sparkStreaming或者storm/jstorm来分析上传的数据
  • 通过统计,识别其中的一些异常特征信息,把这些信息存储到数据存储服务中
  • 通过大屏或者BI报表,或者监控报警反馈给用户
  • 一方面用户可以替换快坏的设备,另一方面可以预警,预防生命财产的损失
海量数据在线服务

screenshot
为什么中国移动不能查询6个月以上的账单呢,但是淘宝可以查询09年的账单?排除其他的考虑,从技术来讲就是淘宝可以支持海量数据的在线服务的能力。
典型的场景就是历史账单的查询:

  • 分析完成后或者用户直接产生的数据存储在Hbase中
  • 通过业务系统直接查询Hbase,提供给用户使用
ad-hot数据分析

screenshot
如果一个公司的运营同学可以通过hive sql查询数据做运营计划。那这个公司无疑真的是一个数据驱动的公司。这个就涉及到ad-hot数据分析平台的建设。

  • 底层还是数据准备好,打通,清洗好,每一段时间固定生产一些数据。
  • 运营同学,做计划的时候,可以天马行空查询自己所需要的数据。 还有就是开发同学自己ad-hot,这个一般直接用hue或者zepplelin,可以写scala、python、R来做。专搞数据分析,精通各种工具,业务场景,我们称之为数据科学家。

后记

昨天讲述完成后,特别跟一个客户聊了他们正在建设的大数据平台。征得他的同意,把这个数据流程图放出来了
screenshot
从中可以看出,离线处理、流式处理、海量数据在线服务都使用到了。

记录几个要点:

  • 数据从基站上传后需要经过一些预处理,可以通过logservices做压力缓冲。
  • 源数据预先存储一份到OSS中,当前处理可能价值没有挖掘完成,后续可以再挖掘。
  • 典型的lambda架构,一路流过来,在线sparkstreaming直接处理后,接redis,做实时的查看;离线沉淀到OSS中。
  • 广告平台的搭建,采取离线分析,做用户画像,后数据输出到广告系统。
  • 采取E-MapReduce按需运行,节约成本(在晚上运行)
  • 如果rds支撑不住大数据量,采取Hbase等分布式海量存储服务

我们从大数据的特征说起,谈到了大数据的价值,再聊啥时候做,谁去做,选择啥平台,最后聊到了怎么做的问题。通过对一些真实的场景分析,了解了大数据的全貌。



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值