大数据产品概念和分类

bce87332a45af62a1cd825e2246bd341.png

导读:

大数据是数据的集合,以容量大、类型多、速度快、精度准、价值高为主要特征,是推动经济转型发展的新动力。

421fbce6ef7422f50bd9cf7903f9feec.png

大数据市场经过20多年的长足发展,形成了丰富的市场生态,从产品、服务供应端的视角大致可分为如下领域:大数据基础设施、大数据分析、大数据应用、大数据开源项目、数据源和API、数据资源。下面我们对各个领域择要讨论,并对数据分析相关部分着重展开。

大数据基础设施

大数据技术的高速发展期开始于本世纪初,其前身是数据库技术。随着数据规模持续的高速增长,主流的技术覆盖范围从“数据”变成了“大数据”,其基础技术的演化大致有如下脉络:

1、数据库

2、数据仓库

3、数据湖

4、湖仓一体

这些技术彼此之间并没有淘汰或取代的关系,他们各自有自己的定位和擅长的业务场景,共同构成了大数据时代的技术基础设施。

数据仓库是个诞生于数据库时代的概念,早期服务于超大型企业的决策支持,并且也在不断地与时俱进,云上数据仓库服务获得了更多的大中小型客户,是对结构化数据进行分析的大数据技术。

数据湖源自于大数据时代开源技术体系的开放设计,经过云计算服务商的积极推广,在新兴公司中大量被采用。通常是由一系列云产品或开源组件共同构成大数据解决方案,可以处理一系列格式不同的结构化、半结构化、非结构化数据。

数据仓库和数据湖是大数据架构的两种设计取向,两者在设计的根本分歧点是存储系统访问、权限管理、建模要求等方面的不同。

数据湖和数据仓库作为大数据系统的两条不同演进路线,有各自特有的优势和局限性。数据湖对初创用户友好但成长性不佳,而数据仓库则刚好反之,对初创用户不友好但成长性较好。

历史较长的用户一般都成长于数据库时代,数据仓库(如果有建设需求的话)是当时唯一的选择。进入互联网时代,云上的半结构化、非结构化数据越来越多,也需要进行处理的时候,传统的数据仓库就遇到挑战。

相当一部分新型企业(尤其是新兴的创业公司)从零开始架构的大数据技术栈,正是伴随开源大数据软件的流行,天然地选择了数据湖架构。随着业务的不断发展,数据湖架构的问题开始显现,它太过灵活而缺少对数据监管、控制和必要的治理手段,导致运维成本不断增加、数据治理效率降低,企业落入了“数据沼泽”的境地,即数据湖中汇聚了太多的数据,反而很难高效率的提炼真正有价值的那部分。

湖仓一体的架构应运而生,兼顾数据湖的灵活性和数据仓库的成长性/事务性。湖仓一体的实现路径有两种。第一种,在数据仓库上支持数据湖,一般方案是在数仓中建外部表;第二种,在数据湖中支持数仓能力,一般方案是做一些开发,比如多版本并发控制、自适应schema、提供文件级事务等等。两种实现路径都需要解决一些共性问题,如数据打通问题、元数据一致性问题、湖和仓上不同引擎之间数据交叉引用的问题、湖仓开发工具缺乏问题等等。

湖仓一体的架构是新一代大数据分析的基础设施。

大数据分析

大数据分析领域有商业智能平台、可视化、数据分析师平台、增强分析、数据目录与发现、指标平台、流批一体、日志分析、查询引擎、搜索等细分领域。

商业智能

商业智能(BI,BusinessIntelligence)是大数据分析最典型应用领域,指以大数据基础设施系统为基础,运用各种数据分析手段进行数据分析以实现商业价值,部分商业智能的输出结果会以可视化的方式展现。

商业智能不是严格意义上的一种技术,它是数据库、数据仓库、数据湖、湖仓一体、ETL、OLAP、数据挖掘、机器学习和人工智能、资料展现等技术的综合运用,把它视为一套配合业务的流程和解决方案更为合适。

商业智能的关键是从许多来自不同的数据源中提取出有用的资料并进行清理,以保证资料的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到数据仓库里,从而得到企业资料的一个全局视图,在此基础上利用合适的查询和分析工具、数据捕捞工具、OLAP工具、机器学习和人工智能技术等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。人工智能在商业智能里开始扮演越来越重要的作用。

数据可视化

数据可视化把抽象的数据以人类容易理解的形式进行展现,常见的展现形式包括:图形图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性和动画的显示。数据可视化可以大幅度提高人们对数据涵义的沟通效率。

数据分析师平台

数据分析师通常来自业务领域(相当一部分是商业智能系统的用户),通过洞察数据发现背后的业务趋势,数据分析师使用的最经典的工具可能是Excel电子表格,以图形化的方式操纵各种工具获得结果。

数据分析师平台正是这种易于使用的图形界面平台,不要求用户具备编程能力,大大降低了数据分析师的人员技术门槛,使人们更多的精力投入到业务领域。

数据分析师平台通常具备对各种格式的原始数据进行数据转换的能力,支持工作流,支持简单代码或无代码处理方式,可以直接输出结果进行展现,或者把处理结果输送到更复杂的工具中进行进一步处理和展现。

增强分析

增强分析是指使用机器学习和人工智能等提升能力的技术来协助进行数据准备、洞察生成和洞察解释,从而增强人们在分析和BI平台中探索和分析数据的能力。

增强分析可以将内部数据与外部数据相结合,并自动执行重要且耗时的任务,例如数据准备、可视化、预测和报告。使用机器学习的增强分析平台,可以使数据分析更智能、更准确。技术是自动化和增强的,可以更快、更智能地获得对所有数据可视化、企业报告、场景建模和移动分析的洞察力。

增强分析中应用了人工智能技术,通常以机器学习(ML)和自然语言处理(NLP)的形式嵌入到分析中。它与传统的分析或商业智能(BI)工具有很大不同,因为机器学习技术始终在幕后工作,以不断学习和增强结果。增强分析可以更快地访问从大量结构化和非结构化数据中获得的洞察,并提供基于机器学习的建议。这种智能有助于发现数据中隐藏的模式和偏差,消除人为偏见,并启用预测能力来告知组织下一步该做什么,引导用户发现他们原本无法看到或发现的洞察。

增强分析的价值具体体现在如下三个方面:

•AI使得大量的业务人员快速获得数据分析能力,不需要数据科学的专业知识,也不需要技术人员的支持,而且数据的使用也在统一的数据架构和安全架构之下,在大大降低了使用者的技术要求之后,业务人员更容易获得数据之下的业务洞见。

•AI可以使用自然语言与人交互,并在交互中进一步学习,可以对数据洞察进行个性化处理。由自然语言处理(NLP)和自然语言生成(NLG)组成的自然语言界面(NLI),使用户可以用简单的语言提出问题并以简单的语言得到答案。用户能够使用直观的探索工具更深入地了解他们的数据。在用户问题的指导下,系统会推荐可视化图表、仪表板和其他易于理解的指标,展现出令人信服的数据。

•AI可以自动地进行数据清理和准备,自动完成繁琐的数据准备工作,让IT工程师和业务分析人员能够更高效地从事他们的本职工作。

数据目录与发现

数据目录是关于数据资产的一个有序清单,它使用元数据来帮助组织管理数据,帮助数据专业人员收集、组织、访问和充实元数据,从而为数据发现和治理提供支持。数据目录之于数据,正如图书目录之于图书。它可以提供一个整体视图,提供所有数据的深度可见性,而不仅仅是一次只查看某一项数据。

与过去相比,想从如今前所未有的数据海洋中找到正确的数据更加困难。同时,关于数据的监管条例和法规也比过去更多、更严格。在这一背景下,除了数据访问之外,数据治理也成为了一个严峻的挑中国大数据分析行业研究报告|15战。不仅要了解当前所拥有数据的类型、哪些人在移动数据、数据的用途以及如何保护数据,还必须避免过多的数据层和封装,避免数据因太难使用而毫无用处。

数据目录可以使用元数据来实现比传统数据管理更丰富、更强大的功能。

流批一体

流批一体是指将流式计算与批量计算两种不同架构的数据处理模式融合到一起。

流式计算与批量计算模式的选择,是由用户使用场景决定的。流式计算适合于有实时或准实时需求的场景,将数据流连续地送入分析工具并快速地得到分析结果,如欺诈实时检测、社交媒体情感分析、安全日志监控、客户行为分析、实时推荐等;而批量计算则适合于非实时的场景,将一段时间内产生的大块数据一起送入分析工具,经过较长运行时间得到结果,如工资单计算、计费、客户订单、清算对账、指标分析、离线报表等。下表对比了两种计算模式的不同:

e628038fec9cf8a9fcbe8f49cd669c02.png

f4fcb5e352f4873df15dfea2f2a69f78.png

对于用户而言,只要数据量达到一定规模,对流式计算和批量计算就会产生业务需求,两种模式需要同时存在,随之而来的是一系列问题:

•重复的资源,存储和计算都要双份,系统的成本高。

•两套系统,组件不同,需要技能不同的人员维护,人员的成本高。

•两套开发体系无法统一,表结构不同,开发环境不同。


•缺乏数据一致性,对于相同的指标,两种模式算出来的结果不一样,虽然最前端输入都来自同一份源数据。

为了解决以上问题,流批一体成为新热点,目标是建立起一套统一的架构,可以同时支持流式计算和批量计算,对混合的有界数据和无界数据能够统一进行支持,提供更一致的、更广泛的编程环境,以较少资源浪费,降低维护成本,获得更好的数据一致性。目前,流批一体的产品和服务正在快速发展和完善之中。

指标平台

这里的指标(Metrics)是指业务上或技术上关注的量化信息,例如销售部门关注的销售额完成率、人事部门关注的员工离职率、管理人员被考核的KPI(关键绩效指标)等等,指标是企业管理中核心的、重要的数据资产。

下图清楚地展现了当今的指标报告所存在的问题,如果没有集中的指标平台,指标逻辑将在不同的工具中重复定义,导致指标不一致。

2d582d020dd3f0133ebba51b08a3560f.png

一位数据工程师描述了缺少统一指标平台的痛苦:“每两天都需要手动创建新表,但无法判断是否已经存在类似的表。我们数据仓库的复杂性不断增加,数据的来源和变换过程变得无法追踪。当上游发现并修复数据问题时,无法保证修复会传播到所有下游作业。结果是,数据科学家和工程师花费了大量时间来修复数据差异,到处灭火,还非常郁闷。”

指标平台是上游数据源和下游业务应用程序之间的中间层,它被称为指标平台(MetricsPlatform)、无头商业智能(HeadlessBI)、指标层(MetricsLayer)或指标存储(MetricsStore),都是指同一个东西。

与传统的BI报告不同,指标平台将指标定义与BI报告和可视化分离。拥有指标的团队可以在指标平台中定义他们的指标,形成单一的事实来源,并能够在BI、自动化工具、业务工作流以及高级分析中一致地重用这些指标。

日志分析

日志分析主要服务于IT运维。IT运维是一项庞杂的系统工程,包括网站的运维、系统的运维、网络的运维、数据库的运维、应用系统的运维、桌面端的运维,以及运维开发、运维安全。

运维工作需要借助监控软件,但由于系统庞杂和需求众多,没有任何一款监控软件能够覆盖所有的运维需求,现在大量的运维团队需要通过日志来进行运维管理。

日志的类型很多,主要包括系统日志、应用程序日志、网络设备日志、数据库日志、安全日志等等。每条日志都记载着时间戳、相关设备名称、系统名称、应用名称、使用者及操作行为等相关的描述,系统运维和开发人员可以通过日志了解软硬件信息、检查配置过程中的错误及错误发生的原因。

随着设备、系统、应用、用户数量的增多,设备7x24地持续运行,很快就会产生海量的日志数据,一套基于大数据和人工智能技术中国大数据分析行业研究报告|19的智能运维体系成为必需。鉴于IT运维市场有着庞大的体量,代表着IT运维未来的智能运维市场将会有巨大的增长空间。

大数据应用

大数据应用,是建立在大数据基础设施之上,综合运用大数据分析和人工智能工具,结合应用场景和垂直行业需求的应用实践。经过20多年的发展,大数据应用已经深入社会的各个领域,水平场景应用涉及的领域有:销售、客户体验/服务、企业市场营销、消费市场营销、人力资本、法律、合规、财务、自动化和机器人流程自动化RPA、安全、广告等,垂直行业应用涉及的领域有:互联网(电商、社交、生活服务等)、金融(借贷、投资、保险等)、电信、政府、卫生健康、工业、交通、教育、房地产、商务、生命科学、农业等。

大数据应用的真正落地,需要结合每个特定用户的特定需求,不是简单的产品堆砌,要做好与用户既有应用环境的结合,并建立新的业务流程。下表举例说明典型的垂直行业大数据应用:

7e08b17ea4b57532181411fb8276f636.png

44ad06cc72424700ef96798648be0397.png

大数据开源项目

大数据技术门槛和项目成本的快速下降,开源大数据项目功不可没。至今,这些开源项目也依然是引领大数据技术发展和创新的重要策源地。

7d34af00d38ef2dca6bf3124145f104a.png

0355781f716a1a8379cff19287b2b6d8.png

c20e28e8f734bbd5b35328358666ebdc.png

2e79cf2e71b941a73629ef882f50bf7c.png

数据源和数据资源

数据是新时代重要的生产要素,是大数据应用的基础,数据与应用的相互促进推动了大数据产业更快地发展。多维度的数据接入是大数据应用提升效能的根本保证,而应用的丰富则能更快地提升数据的获取和积累。

在增强分析中,实现数据的自动补充和技术准备,维度丰富的数据接入是基础,包括公开领域的媒体信息、社交动态、气象数据、财经数据、统计信息等等,以及需要协议接口的企业信息、人员信息、财税信息、金融信息、信用信息、地图数据、地理信息、天空海洋数据、环境数据等等。

据工业与信息化部2021年11月发布的《“十四五”大数据产业发展规划》,我国的数据资源极大丰富,总量位居全球前列。这其中,政府拥有大量高质量的数据,这些数据资产的整合和安全地开放,是正在持续开展的重要工作。

互联互通社区

互联互通社区-IT智库,是互联互通社区IT架构、前沿技术平台。包含科技趋势、总体架构、产业架构、技术架构、系统架构、业务架构等内容,内容简练,皆属干货,合作请+微信:hulianhutongshequ.

fccc2a3557e1b6e29725b8e8785a9bd8.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值