第一章 阿里大数据产品体系

1.大数据基础知识

什么是数据分析?

数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。

数据分析流程:需求分析明确目标➡️数据收集加工处理➡️数据分析数据展现➡️分析报告提炼价值

什么是数据仓库?

数据仓库是一个面向主题的(subject oriented)、集成的(integrated)、非易失的(non- volatile)、时变的(time variant)数据集合,用于支持管理决策。

  • 面向主题:数据仓库中的数据是按照主题来组织的;
  • 集成:一个数据仓库的数据源可以来源于不同的业务系统;
  • 非易失的:数据到达数据仓库一般不会被改变,即数据仓库对外一般支持查询,不支持修改等;
  • 时变:数据仓库中的数据随时间不断变化;

数据仓库解决的问题

  1. 为业务部门提供准确及时的报表;
  2. 为管理人员提供更强的分析能力,如OLAP(联机分析处理)技术;
  3. 为数据挖掘和知识发现奠定基础;

什么是大数据?

大数据,指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的四个特征

  • 体量极大(volume)
  • 种类繁多(variety)
  • 价值密度低(value)
  • 处理速度快(velocity)

云计算与大数据的关系

云计算提供存储与计算的基础设施,大数据则是运行在其上的应用。

大数据的处理思路

减治:将问题化简成一个更简单的能处理的问题
分治:将问题拆分成多个可以简单求解的小问题

大数据计算技术三种计算场景

  • 离线,定时发生,批量处理,实时性差;
  • 在线,用户操作触发,频繁交互,快速响应;
  • 流式:消息触发,逐条处理;

大数据应用常见场景

  • 数据仓库:通过搭建数据仓库,实现传统的数据分析;
  • 智能算法:通过智能算法,实现语音,图像,文本分析处理等;
  • 大数据应用:将成熟的解决方案应用到系统中;
  • 数据可视化:通过大屏数据展现;

2.大数据产品体系

在这里插入图片描述

阿里云大数据服务基础产品介绍

云数据库——ApsaraDB for RDS(简称RDS)

  • 稳定可靠、可弹性伸缩的在线数据库服务;
  • 即开即用,DMS可视化界面;
  • 兼容MySQL、SQLServer,PG等关系型数据库;
  • 提供数据库的在线扩容(降配需要停机)、备份回滚、性能监控及分析等功能;
  • 支持只读实例和临时实例

优势:秒级切换,服务可用性达99.95%;防攻击,SQL注入告警,数据多重备份;一键式数据迁移,可视化管理操作。

分布式关系型数据库(简称DRDS)

  • 基于RDS的分布式数据存储和检索产品;
  • 水平拆分,可平滑扩容;
  • 解决用户单RDS无法支撑业务的苦难;
  • 降低用户使用分布式数据库的难度;

优势:兼容MySQL(交互协议、SQL),共享阿里TDDL、CORBA组件,水平拆分,容量达单节点百倍,增减节点对应用几乎无影响,高效数据迁移。

表格存储(简称TS)

  • 构建在阿里云飞天分布式系统之上的NoSQL数据存储服务;
  • 海量结构化数据的存储和实时访问;
  • 弹性资源预留;
  • 实时监控显示;

优势:自动故障检测与恢复,系统可用性99.9%,用户级别的数据隔离、访问控制和权限管理,数据冗余备份,单表百TB级别数据存储,毫秒级别单行读写延迟,十万级别QPS。

分析型数据库——Analytic DB

  • 海量数据实时高并发在线分析云计算服务
  • 自由的计算和查询能力
  • 高可用性和高安全性
  • 全面兼容MySQL协议

优势:通过SQL灵活进行多维分析、数据透视、数据筛选等,毫秒级的千亿数据透视,毫秒级的大表关联计算,高性能自动索引、海量数据的极速导出,标准SQL,内置多种云产品的数据输入/输出。

大数据计算服务——MaxCompute(原ODPS)

  • 针对TB/PB级数据的分布式处理能力(实时性要求不高)
  • 大数据运算能力以支撑大数据挖掘应用
  • 开箱即用
  • 数据安全

优势:分布式集群架构,可灵活扩展;自动存储容错机制,所有计算在沙箱中进行;全面支持基于SQL的数据处理,提供标准API,高并发高吞吐量的数据上传下载;灵活的数据访问控制策略。

数据集成
数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台,为阿里云大数据计算引擎提供的离线(批量)数据进出通道。

优势:

  • 多:支持数据源种类多,多样数据通道,齐全的数据传输方式,丰富的数据处理插件;
  • 快:高效的调用方式,强劲的传输速度,强大的吞吐力;
  • 好:健壮的传输通道,智能的错误检测,自动的传输恢复;
  • 省:开箱即用,动态分配,弹性伸展,按需申请,按量付费;

对象存储(简称OSS)

  • 提供海量、安全、低成本、高可靠的云存储服务;
  • 即开即用,无限大空间的存储集群;
  • 通过API/SDK接口或OSS迁移工具方便将海量数据移入或移除;
  • 存储对象操作具有原子性,强一致性;

优势:服务可用性99.99%,数据持久性99.999999999%(9个9),多重备份,规模自动扩展;用户级别的资源隔离,异地容灾,企业级多层安全防护,多种授权机制;多线GBP骨干网络,无带宽限制,上行流量免费;图片处理、音视频转码、内容加速分发、鉴黄服务,归档服务等。

大数据开发平台(阿里云数加平台)

阿里云数据产品均集成在数加平台,阿里云公共云数加平台的定位:

  • 一站式数据平台(集成包括从基础数据分析应用到大数据开发、调度、运维,到机器学习等);
  • 提供三层服务(底层计算、数据平台分析工具、应用层服务)
  • 行业解决方案

DataWorks(原Data IDE)
数据工场DataWorks(原大数据开发套件Data IDE)是基于MaxCompute作为计算和存储引擎的用于工作流可视化开发和托管调度运维的海量数据离线加工分析平台。

优势:阿里多年DW/BI经验沉淀,全链路解决方案,高效率低成本;集成式组件服务,多种异构数据源支持,多人协同代码开发,完善的版本管理,分钟、小时级调度、拖拽式数据分析与可视化算法建模;完美融合Max Compute,支持十万级任务的有序运行及管理。

Quick BI
提供海量数据实时在线分析服务,支持拖拽式操作,提供了丰富的可视化效果,可以轻松自如地完成数据分析,业务数据探查,报表制作等工作。

优势:拖拽操作,简单易用;多样的解决方案,丰富的展现手段;数据分析,数据处理能力强大

机器学习PAI

  • 基于MaxCompute、GPU集群,支持MR、MPI、SQL、BSP、SPARK等计算类型;
  • 内置阿里、蚂蚁多年沉淀的分布式算法,支持百亿级数据量训练;
  • WEB界面,通过拖、拉、拽等方式即可完成复杂数据挖掘流程;

优势:提供从数据预处理到模型评估的一站式平台服务,显著降低大数据算法建模门槛;支持自定义算法和组件,灵活开放的个性化设置,极大地提高了建模效率;提供丰富的分布式算法,提高模型精度,助力海量数据中挖掘出业务价值。

3.大数据产品典型应用场景

应用场景1-从业务系统到数据分析

云数据库RDS搭配大数据计算服务MaxCompute,实现对大数据的分布式分析处理,适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在RDS与ODPS间的同步,简化数据操作流程。
在这里插入图片描述

应用案例:某云电商网站通过公众号销售商品,数据存入RDS业务数据库,每天将销售记录通过数据集成同步到MaxCompute(企业自己的数据仓库),数据在数据仓库系统中经过加工处理后,形成客户画像数据,客户画像数据再返回到RDS业务库,实现客户商品推荐。

应用场景2-传统企业BI应用

作为传统企业数据上云后的BI引擎,分析型数据库在提供极快速的ROLAP解决方案之外,还提供对传统的BI报表工具的天然兼容性,减少企业迁移和采购成本。
在这里插入图片描述

应用案例:某运输公司将业务系统数据库中的运单数据直接通过数据集成,在分析数据库中进行实时多维分析,并形成固定的报表通过Quick BI形成报表门户,替代原来的直接在业务系统中进行多维分析的功能,实现频繁交互和分析的内部BI系统。

应用场景3-探索式分析

分析型数据库可以作为大数据时代的CRM、DMP(达摩盘)、报表型数据产品等数据SaaS的最佳引擎,支撑数据量不断增长的情况下数据产品的稳定运行和良好的用户体验。
在这里插入图片描述

应用案例:阿里的DMP即通过MaxCompute将多方数据进行整合,通过分析型数据库对客户数据进行分析,对人群进行分类细分,结合商家圈定的目标消费人群,指导商家进行商品投放,商品推荐。

应用场景4-商业智能分析

通常情况下,MaxCompute可以与ECS,ADB/RDS以及其他BI报表工具等配合使用,完成用户BI分析的需求。
在这里插入图片描述

应用案例:某企业以MaxCompute为核心搭建自己的数据中心系统,将企业生产数据,管理数据,财务数据全部通过数据中心统一处理,通过开发平台,数据集成结合Quick BI生成日常运营所需各类统计报表,结合分析型数据库实现多维分析指导企业生产、运营,战略决策。

应用场景5-线上线下混合应用

复杂的离线分析在MaxCompute中完成,将生成的结果同步到(D)RDS、分析型数据库或者表格存储中,供线上应用的即时访问。
在这里插入图片描述

应用案例:某电商企业通过大数据计算服务处理客户标签,到目前为止形成的客户标签超过400多个,客户记录数据超过几千万;客户标签形成后,基于客户标签生成结果再结合其他数据进行分析处理,指导商品营销、客户关怀等业务;项目初始阶段由于数据量较小,标签也只有几十个,因此形成的结果存放在云数据库中基本满足需求,随着数据量的指数级增长,性能无法满足需求,目前采用分析型数据库替代原来的云数据库RDS进行多维分析,同时基于客户ID的标签查询业务迁移到表格存储上,以提升应用效率。

4.思考与练习

  1. 回顾一下大数据的特征,思考一下为什么会出现大数据?理解大数据相关知识:什么是分布式?大数据为什么需要分布式存储、分布式计算?数据仓库、数据分析是做什么的?
  2. 回顾阿里云大数据产品体系,了解阿里云产品的特点和优点,包括云数据库RDS,分布式关系型数据库DRDS、表格存储(Table Store) 、分析型数据库(Analytic DB) 、对象存储OSS,初识MaxCompute, DataWorks, QuickBl、数据集成等;用自己的话描述—下这些产品服务都适合什么场景,和你自己熟恶的对应产品相比,又有什么特点和优势?
  3. 思考常见的阿里云产品的应用场景?
  4. 假如你在一家生产企业的销售部门,需要搭建一个销售商品的分析系统,每天需要将分公司的数据[聚到你这里,形成公司总的销售分析结果后供全公司应用(暂不考虑权限)段如用本章节提到的产品,你准备如何搭建一个分析系统?
已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页