【大数据学习】数据化运营并不难？关键是这些技术你get了么？！-CSDN博客

免费开通大数据服务：https://www.aliyun.com/product/odps

1月15日在北京举行了首次阿里云大数据合作伙伴深度培训，我司获邀参加，我和两名研发的同学又一次来到了阿里巴巴望京园区。

2a9b92e211b09408f2691703a9bf66e56bbc9fa6

> 培训的第一部分内容、数加的介绍及应用

除了介绍性内容之外，还是有「干货」的，这个干货就是MaxCompute 的实践。MaxCompute原来叫做ODPS，www.aliyun.com/product/odps，是阿里整个大数据解决方案的基础。

a52d1a099484a7ad6b89dfb453810297d878ea35

上来，给我们讲了什么事数据分析，话说我们是来学习大数据的，干嘛还要研究数据分析？
因为：大数据不是用来吹的！

a33989a0015370e36bc5cc9e43c6b672aef68100

通过数据分析能够获得的好处有很多，但最重要的是获得数据化运营的能力！
为啥要数据化运营？
因为：百度、阿里巴巴、腾讯、苹果、谷歌、亚马逊的运营一个比一个的数据化，一个赛一个的赚钱！

48dffbbd76ca17bd1fd5e723acc193b911392263

又开始讲数据仓库了，说这个干嘛，我们不是要数据化运营吗？没有数据咋运营，数据多了自然就需要仓库放呗！
数据仓库领域已经发展了30多年了，大数据不是在颠覆，而是继承和扩展了相关领域知识。
「大」数据和「小」数据的分析处理流程是基本一致的。

1ae2985552ebd4be825a4816e6fc110383fbcc14

你听说过星型模型么？那你听说过范式模型么？
反正，在数据分析应用场景下是不太关注数据重复的，通常采用星型模型组织数据；在线业务应用场景需要尽量避免数据的重复存储，通常采用范式模型进行数据存储。
星型模型就是通过把数据组织成维度和事实表的一种数据建模方式，数据通过星型模式组织更有利于理解和分析。
这种建模方式数据仓库已经用了三十年，大数据仓库还要继续用。

06de8d604e51449da9a9dfc7aa934f5d4f9c8333

什么是大数据？体量、数量、技术、潮流都不是重点！
这个话是阿里说的哈，不是我说的。

e3c862b4d7305f2799450ca8163fcdd27196fbba

数据大了，传统方式搞不定了，两个办法来解决：减治和分治。

4285f0a3c174fa338d6c92c6c0d015d6bcf7263d

目前有三种主要的大数据计算场景：离线计算、在线计算、流式计算。
MaxCompute 主打离线计算、在线计算有阿里云的ADS（分析型数据库）、流式计算阿里云有正在公测的StreamCompute。
其他的还有图计算和内存计算，阿里自己内部在用，目前还没有通过阿里云对外输出。

7dff85e9a2c85421b3f97992a3e83a7a316724ab

阿里云大数据的使用场景包括：
数据仓库：最大一坨的应用场景，最顶层是数据可视化、下面是BI报表和机器学习、开发用的是大数据开发平台（DateIDE）、基础是计算平台（其中最主要的是MaxCompute）。
数据可视化：数据可视化可以单独拿出来应用，只要你把数据给它，他就能给你变出“花”来。
智能算法：机器翻译、人脸识别、智能语音交互、印刷文字识别、电商图片分析、通用图片分析等算法你都可以通过API调用的方式来使用。
数据应用：通过把算法结合具体的应用场景，阿里推出了推荐引擎、规则引擎、移动定向营销、移动数据分析等数据应用。

2e3b72d1df9f6a72d762930ee39a2c003fddb39c

刚才那个图，换一种方式来表示。
阿里的人总是反复说：他们最关注的还是底层的计算引擎、数据加工和分析工具，上面的应用和解决方案主要还是得依靠合作伙伴来结合具体的应用场景进行创新。

54a355148c1819b661d54f1b825ed95f1d2befea

阿里云大数据的场景解决方案和大数据产品。

f153956b0e91ca3add8d2d9984908437d1668857

第一场景、经典的数据仓库和BI，「第一」是说最经典的、还是最常见、或是最重要的、还是最赚钱的？
这个场景，其实就是基于阿里云大数据平台在做传统BI。
开发人员借助于大数据开发平台（DateIDE）操作大数据计算服务（MaxCompute）完成数据分析任务、最终数据通过BI报表（QuickBI）呈现。

ec4f3c8ce6bce07eeb02bf9727b0da840ef3a4ac

场景二、只是稍微复杂了那么一点儿。
最主要的差别是引入了智能算法，通过对存储在对象存储（OSS）中的海量非结构化数据运用机器学习算法进行处理，形成结构化数据之后再导入大数据计算服务（MaxCompute)，结合关系型数据库中导入的数据一起来做分析。
一种可能的场景是：在客服满意度调查分析中，对存储在OSS中的客户服务录音进行语音识别，形成文本，再对文本信息通过语义建模抽取关键信息后结合用户交易历史数据对客户服务的最终效果进行跟踪分析。

ab1bfee055de537e9595bdcc1edf7dfc0c1b919a

场景三、数据平台
除了自己的数据以外，还引入了第三方数据，打造数据生态。
阿里云方面的产品嘛，还是那些东西。

e0e48d5a4aeaff526a53bfc1898bbf94f1b4343a

场景四：经典人工智能。
主要就是MaxCompute结合了阿里云提供的机器学习算法。

c2663bf1874dfd639218dd118f41e22456a15375

应用场景一：个性化推荐
阿里是做电商起家的，对于产品推荐自然是行家。

d6f7f652f9afc153e90b242aa7cd87b4a17604d9

应用场景二：数据可视化
阿里帮你把数据可视化的框架搭起来了，你往里填数据就行了。

7a9d470224cc310183ea1f5a43eb166d695f0b92

应用场景三：智能语音
阿里自己的电话客户服务可以做到100%质检，指望人来听是不现实的，阿里都是用机器听的。
更牛的是，据说今年阿里双11的客户服务绝大部分都是机器做的，不过，你信么？

42846add8903924ed75dec08beafcac6a8622c10

开始讲干货了：MaxCompute
MaxCompute主打批处理，底层模型和Hadoop的MapReduce类似，据说阿里是用C++把Hadoop的MapReduce重新实现了，原来是基于Java的。

d7a377a2585f41384f253d4f5d0aaf78c8293ec7

MaxCompute的主要应用场景：
第一、最基本的就是数据仓库和BI，主要用SQL开发，结合少量UDF（用户自定义函数）。
第二、目前Graph在公测，是基于图计算模型的分布式应用，这个主要用在机器学习领域，当阿里提供的算法不够用时，可以自己DIY。
第三、支持机器学习和数据挖掘，阿里提供了很多成熟算法，这些算法的训练和分析数据主要是存储在MaxCompute上的。

dc3f7c51baad186dea3e2d58650cd53240d90814

图计算的主要用户应该是科学家。
机器学习和大数据统计是统计分析师们的最爱。
重点是MaxCompute SQL，对于计算机工程技术人员来说，日后主打的工具就是它了。
以下是MaxCompute SQL的介绍。

5fe04cec5a2e4d1d112df448eb087846dc09adf7

MaxCompute 的主要概念：项目空间、表、分区。

fbf28bfb2e0e4edee447c40a5925b7ebf41349d2

三种用户自定义函数：UDF、UDTF、UDAF。
目前的用户自定义函数都是用Java语言实现的，编译形成JAR包后上传到MaxCompute作为资源使用，可以在SQL中和内置函数一样调用。

1ce30b6a5e327b93e1eaa15bea2c9d64895707c1

UDF的输入和输出是一对一的。

53d48ce0d095314c1c66edbff71ee849fbffa5e4

UDTF的输入和输出是一对多的。

5fd5a95ee06c86ce2fb91d17bc8a58e9aeb9c191

UDAF的输入和输出是多对一的。

62ef428732a31f98aec2d2e9eeb5ab8397dc2991

用户自定义函数的开发和使用过程。

73f5864fff734a6fd849db7af0b1690eb3570088

>第二部分、Date IDE

MaxCompute有一个命令行工具，还有一个图形化开发环境叫做Date IDE。

a96b8ed6ebba947faf9efa716fe1f58300df135b

Date IDE的功能不仅是一个开发环境，还包括调度管理和监控运维。
数据化运营是一个长期过程，一旦开始就意外着要进行不断的投入和运维。

a21271c9e3cab061d96814e2f0fc3cddbdd2dbff

开了一个项目空间，看看有啥功能。

5df561085f509e91fadabd56ee60f6c143563427

数据的处理步骤通过节点来组织。

a364df1e0a6e4ec028c743f3e2f7bd9b9afa6e4d

可以对节点设置调度、依赖和监控，如果真的开始了数据化运营，如果哪一天没有数据输出就是一场灾难。

6973eea2d82e7194bc0f3112928bd9c650f81a84

>第三部分、一个案例：海量日志数据分析

把前面介绍的内容整体穿起来，放在一个应用场景下介绍。

25b22d8ac93e5f7452de2d34f14336dd2cafb91e

为啥要分析日志？

7217c22ddb04d1a34d2b8437daa68b93d11ba6ac

案例中用到的产品：MaxCompute、Date IDE、Quick BI。

a80430d01bec1082045b290eb72eeba68a61fb09

整体的流程：这个流程图是在Date IDE中通过拖拽形成的。

2cbb2b85b9994eae3b653b082f3ed3e9f3dc3b79

第一步，数据的采集。
MaxCompute支持各种导入数据的方式。

b81ce93c76f6fbbf2e2ab82dc3b7ff1ce17277f1

第二步，数据的处理分析。
阿里自己通常会把数据分成三层来处理：
ODS层、为了避免影响在线业务的运行，通常不进行处理，先把数据直接导进来放在ODS层。
DW层、使用星型模型重新组织数据，分成维度表行和事实表。
RPT层、具体报表使用的数据，因为要进行在线的查询和访问，而MaxCompute不擅长在线访问，所以通常都会导回到RDS（关系型数据库）或ADS（分析型数据库）存储。

0632b7907f3c53d2bb43c45ac0b9812d210bd640