大数据到底什么，大数据科普

最新推荐文章于 2020-09-24 12:01:41 发布

oLevin

最新推荐文章于 2020-09-24 12:01:41 发布

阅读量3.1k

点赞数

分类专栏：大数据

大数据专栏收录该内容

11 篇文章 1 订阅

订阅专栏

转载：https://yq.aliyun.com/articles/57136

我们还是具体说说，为什么需要大数据吧。看起来是有点多此一举，不是很明白吗！？有价值。我们需要讲到问题的核心，大数据对于企业，就是提高效率、提升竞争力的；对于社会，可以拯救生命，造福人类。国家提出了互联网+的概念，其实我们仔细想想，其核心是大数据+ 。现在比较高大上的无人驾驶、基因测序、智能交通、人工智能等其核心对数据的处理。

啥时候用?

有的人说，我不可能一开始就造一个大数据平台吧。我感觉用excel就可以做数据分析了，那也是可以的。不过，你还是得考虑下，如果一直用excel做数据分析，那也还说明你还没有步入大数据时代。这个也是好事情，因为你没有使用大数据的利器，你公司还没有倒闭。等你合理使用大数据后，你的企业可能会腾飞起来。一般来讲，企业可能会有以下几种原因没有去建设大数据平台。注意，成本往往不是核心的因素，在风投市场，你说我用大数据来提高生产力，挖掘数据价值，只要你说的真是那么回事情，你的公司的估值立马提升。对于传统做起来的公司，根本不差这么点钱。

场景

大数据处理场景，我们一般分为4类。

离线分析，具体讲就是数据是先存储在一个地方，后续再分析的，往往一般特别指写好程序，按照一定的周期固定运行的。
流式数据处理，指数据一条条流过来的。这类数据处理具有很高的时效性，往往是数秒钟的延迟，在一些特别的场景（比如风控）到毫秒的场景。
大数据数据存储服务，在单机如mysql无法满足需求的时候，需要大数据的在线存储服务，通过分布式的能力提供在线服务的能力。目前在hadoop体系中，特别是国内，hbase用的比较多。
ad-hoc分析，就是用户有一个想法，这个想法用户想及时查询数据，一般是运营同学或者数据分析的同学。还有一些，比如计算学习算法的参数调整，往往用户需要加载一点数据，再验证，看下结果，再调整参数（这个也是为什么spark比hadoop从易用层面更加适合机器学习场景的原因。

离线分析

典型的场景是广告里面的精准营销（前面也提了下），为了做这个一般需要：

尽量收集到关于用户更多的数据，为了做用户画像，这些数据从不同的地方来，上面分析过主要的四个途径。
数据一般直接存储在OSS、HDFS中。
通过离线处理，机器学习的分类等算法（一般在E-MapReduce推荐使用spark或者spark mllib机器学习算法库），给用户打标签，比如爱好、性别等，尽量刻画一个用户，还原在现实生活中的状态。期间会除去很多的噪音，细节点很多，需要不断优化（一般数据越多，越精准）。
后续广告通过相关特征匹配推荐打标签的用户，再通过用户的点击率等信息沉淀数据，反过来优化算法。

流式处理

典型的场景是故障检测（比如灾难检测）：

在需要检测的点上，部署很多传感器（比如煤矿），这些传感器不断的产生大量的数据。
这些数据通过网络（4g或者专线）上传到云中的logservices
E-MapReduce中启动sparkStreaming或者storm/jstorm来分析上传的数据
通过统计，识别其中的一些异常特征信息，把这些信息存储到数据存储服务中
通过大屏或者BI报表，或者监控报警反馈给用户
一方面用户可以替换快坏的设备，另一方面可以预警，预防生命财产的损失

海量数据在线服务

为什么中国移动不能查询6个月以上的账单呢，但是淘宝可以查询09年的账单？排除其他的考虑，从技术来讲就是淘宝可以支持海量数据的在线服务的能力。

典型的场景就是历史账单的查询：

分析完成后或者用户直接产生的数据存储在Hbase中
通过业务系统直接查询Hbase，提供给用户使用

ad-hot数据分析

如果一个公司的运营同学可以通过hive sql查询数据做运营计划。那这个公司无疑真的是一个数据驱动的公司。这个就涉及到ad-hot数据分析平台的建设。

底层还是数据准备好，打通，清洗好，每一段时间固定生产一些数据。
运营同学，做计划的时候，可以天马行空查询自己所需要的数据。还有就是开发同学自己ad-hot，这个一般直接用hue或者zepplelin，可以写scala、python、R来做。专搞数据分析，精通各种工具，业务场景，我们称之为数据科学家。

后记

昨天讲述完成后，特别跟一个客户聊了他们正在建设的大数据平台。征得他的同意，把这个数据流程图放出来了

从中可以看出，离线处理、流式处理、海量数据在线服务都使用到了。

记录几个要点：

数据从基站上传后需要经过一些预处理，可以通过logservices做压力缓冲。
源数据预先存储一份到OSS中，当前处理可能价值没有挖掘完成，后续可以再挖掘。
典型的lambda架构，一路流过来，在线sparkstreaming直接处理后，接redis，做实时的查看；离线沉淀到OSS中。
广告平台的搭建，采取离线分析，做用户画像，后数据输出到广告系统。
采取E-MapReduce按需运行，节约成本（在晚上运行）
如果rds支撑不住大数据量，采取Hbase等分布式海量存储服务

我们从大数据的特征说起，谈到了大数据的价值，再聊啥时候做，谁去做，选择啥平台，最后聊到了怎么做的问题。通过对一些真实的场景分析，了解了大数据的全貌。

oLevin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据到底什么，大数据科普

转载：https://yq.aliyun.com/articles/57136我们还是具体说说，为什么需要大数据吧。看起来是有点多此一举，不是很明白吗！？有价值。我们需要讲到问题的核心，大数据对于企业，就是提高效率、提升竞争力的；对于社会，可以拯救生命，造福人类。国家提出了互联网+的概念，其实我们仔细想想，其核心是大数据+ 。现在比较高大上的无人驾驶、基因测序、智能交通、人工智能等其核心
复制链接

扫一扫