大数据基础概念（一）

最新推荐文章于 2023-06-20 19:12:32 发布

戰士

最新推荐文章于 2023-06-20 19:12:32 发布

阅读量1.3k

点赞数

分类专栏：基础知识文章标签：大数据概念数据处理

本文链接：https://blog.csdn.net/qq_36632174/article/details/102460997

版权

基础知识专栏收录该内容

57 篇文章 6 订阅

订阅专栏

大数据的意义

一、大数据的存在，使同一款产品能为每一个用户提供服务，因为通过巨量数据的采集为每个用户都会展示最适合个人的内容。

大数据中学会数据运营与分析整理；这是互联网与传统企业的核心区别，互联网可以快速积攒用户的各种数据和行为信息，这就是一种用户反馈，让用户用行为做反馈远比调查和设立客户服收集到的反馈更真实、更有效、更具价值。这就是很多大互联网公司其实客服多数都是外包 Callcent，多数的服务反馈是靠运营数据而来的。当你属于传统产业并不能做到快速的数据收集和整理的时候，小米的全民客服或许是个好办法。你的用户不是一类人，而是每一个人；就是因为有了大数据的便利，利用大数据的优势才把服务于每一个人变成现实，如同每个人微博首页的内容都是不同的，是以你关注的和与你相关的信息所构成，这是最典型的产品体现。

二、通过获取巨量数据，统一存储分析得出的结论，能为企业决策保驾护航。数据即是价值，可单独做成一款数据产品。

大数据概念

指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据特征

1.容量（Volume）：数据的大小决定所考虑的数据的价值和潜在的信息；
2.种类（Variety）：数据类型的多样性；
3.速度（Velocity）：获得数据的速度；
4.可变性（Variability）：妨碍了处理和有效地管理数据的过程；
5.真实性（Veracity）：数据的质量；
6.复杂性（Complexity）：数据量巨大，来源多渠道；
7.价值（value）：合理运用大数据，以低成本创造高价值；

大数据趋势

①数据的资源化
指大数据成为企业和社会关注的重要战略资源，并已成为大家争相抢夺的新焦点。因而，企业必须要提前制定大数据营销战略计划，抢占市场先机。
②与云计算的深度结合
大数据离不开云处理，云处理为大数据提供了弹性可拓展的基础设备，是产生大数据的平台之一。自2013年开始，大数据技术已开始和云计算技术紧密结合，预计未来两者关系将更为密切。除此之外，物联网、移动互联网等新兴计算形态，也将一齐助力大数据革命，让大数据营销发挥出更大的影响力。
③科学理论的突破
随着大数据的快速发展，就像计算机和互联网一样，大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术，可能会改变数据世界里的很多算法和基础理论，实现科学技术上的突破。
④数据科学和数据联盟的成立
未来，数据科学将成为一门专门的学科，被越来越多的人所认知。各大高校将设立专门的数据科学类专业，也会催生一批与之相关的新的就业岗位。与此同时，基于数据这个基础平台，也将建立起跨领域的数据共享平台，之后，数据共享将扩展到企业层面，并且成为未来产业的核心一环。（未来两年预计大数据岗位空缺200万+）
⑤数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%，除非数据在其源头就能够得到安全保障。可以说，在未来，每个财富500强企业都会面临数据攻击，无论他们是否已经做好安全防范。而所有企业，无论规模大小，都需要重新审视今天的安全定义。在财富500强企业中，超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据，所有数据在创建之初便需要获得安全保障，而并非在数据保存的最后一个环节，仅仅加强后者的安全措施已被证明于事无补。
⑥数据管理成为核心竞争力
数据管理成为核心竞争力，直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后，企业对于数据管理便有了更清晰的界定，将数据管理作为企业核心竞争力，持续发展，战略性规划与运用数据资产，成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外，对于具有互联网思维的企业而言，数据资产竞争力所占比重为36.8%，数据资产的管理效果将直接影响企业的财务表现。
⑦数据质量是BI(商业智能)成功的关键
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是，很多数据源会带来大量低质量数据。想要成功，企业需要理解原始数据与数据分析之间的差距，从而消除低质量数据并通过BI获得更佳决策。
⑧数据生态系统复合化程度加强
大数据的世界不只是一个单一的、巨大的计算机网络，而是一个由大量活动构件与多元参与者元素所构成的生态系统，终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今，这样一套数据生态系统的基本雏形已然形成，接下来的发展将趋向于系统内部角色的细分，也就是市场的细分;系统机制的调整，也就是商业模式的创新;系统结构的调整，也就是竞争环境的调整等等，从而使得数据生态系统复合化程度逐渐增强。

数据治理一般流程

大数据包括数据采集、接入、清洗、存储、计算、数据挖掘/分析、语义引擎、监控、可视化等环节，每个环节都可以当做一个复杂的系统来建设数据可视化为发现问题提供了便捷。商务智能时代：利用数据挖掘技术解决复杂的业务问题，建立一套解决问题的流程，并将其固化。如客户离网预警，一线人员不需要对数据做过多的解读，拿到客户清单执行维系挽留任务即可。

采集数据->清洗数据->数据挖掘/分析->发现规律/问题->呈现问题(可视化)->提供解决问题方案->存储方案->为之后作业提供依据

大数据的关键是数据接入、数据整合、数据判断和数据记忆、数据储存、数据回放，几者缺一不可。

基于hadoop的大数据基础架构

一千个人的眼中有一千个哈姆雷特，大数据的相关框架、工具数不胜数且一直在持续更新，没有最好的技术只有最合理的使用，以下及以后文章均以hadoop为基础构建。

Apache、Clouder CDH和Hortonworks

Hortonworks Hadoop区别于其他的Hadoop发行版(如Cloudera)的根本就在于，Hortonworks的产品均是百分之百开源。Cloudera有免费版和企业版，企业版只有试用期。apache hadoop则是原生的hadoop。hortonwordks和CDH，二者装配上比较简单，基于web页面可视化安装，可以装配多个hadoop相关组件，而且是自动集成多组件hortonworks多基于Ambari安装。Apache hadoop则是完全自主安装组件，不能自主组合，安装起来麻烦，需要每个组件逐个安装并需要对每个组件进行版本排查，但是一旦安装完成后可控性更强，更能适应定制版原则。

前言

中国是数据生产大国。目前，中国互联网、移动互联网用户规模居全球第一，拥有丰富的数据资源和应用市场优势。虽然就全球来说，中国大数据产业还在初级阶段，但如果能在大数据管理和分析技术的研发与应用方面取得突破，并在政策的扶持下，可持续推动互联网创新企业和创新应用的高速成长，实现弯道超车。大数据中的数据量非常巨大，达到了PB级别。而且这庞大的数据之中，不仅仅包括结构化数据（如数字、符号等数据），还包括非结构化数据（如文本、图像、声音、视频等数据）。这使得大数据的存储，管理和处理很难利用传统的关系型数据库去完成。在大数据之中，有价值的信息往往深藏其中。这就需要对大数据的处理速度要非常快，才能短时间之内就能从大量的复杂数据之中获取到有价值的信息。在大数据的大量复杂的数据之中，通常不仅仅包含真实的数据，一些虚假的数据也混杂其中。这就需要在大数据的处理中将虚假的数据剔除，利用真实的数据来分析得出真实的结果。大数据中的“大”不仅仅只得是数据数量巨大，以前的计算机计算和统计学都是对数据进行抽样来计算，现在因为大数据概念的出现，数据的采集，存储，计算都不是问题，所以不用抽样，直接处理数据整体。所以大数据不仅仅是“大”，而是“全”。

处理框架和处理引擎

处理框架和处理引擎负责对数据系统中的数据进行计算。虽然“引擎”和“框架”之间的区别没有什么权威的定义，但是普遍认为：

引擎：定义为实际负责处理数据操作的组件。

框架：可定义为承担类似作用的一系列组件。

虽然负责处理生命周期内这一阶段数据的系统通常都很复杂，但从广义层面来看它们的目标是非常一致的：通过对数据执行操作提高理解能力，揭示出数据蕴含的模式，并针对复杂互动获得见解。为了简化这些组件的讨论，我们会通过不同处理框架的设计意图，按照所处理的数据状态对其进行分类。一些系统可以用批处理方式处理数据，一些系统可以用流方式处理连续不断流入系统的数据。此外还有一些系统可以同时处理这两类数据。

批处理系统

批处理在大数据世界有着悠久的历史。批处理主要操作大容量静态数据集，并在计算过程完成后返回结果。批处理模式中使用的数据集通常符合下列特征：

1）有界：批处理数据集代表数据的有限集合。
2）持久：数据通常始终存储在某种类型的持久存储位置中。
3）大量：批处理操作通常是处理极为海量数据集的唯一方法。

批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时，必须将数据集作为一个整体加以处理，而不能将其视作多条记录的集合。这些操作要求在计算进行过程中数据维持自己的状态。需要处理大量数据的任务通常最适合用批处理操作进行处理。无论直接从持久存储设备处理数据集，或首先将数据集载入内存，批处理系统在设计过程中就充分考虑了数据的量，可提供充足的处理资源。由于批处理在应对大量持久数据方面的表现极为出色，因此经常被用于对历史数据进行分析。大量数据的处理需要付出大量时间，因此批处理不适合对处理时间要求较高的场合。

流处理系统

流处理系统会对随时进入系统的数据进行计算。相比批处理模式，这是一种截然不同的处理方式。流处理方式无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作。流处理中的数据集是“无边界”的，这就产生了几个重要的影响：

1)完整数据集只能代表截至目前已经进入到系统中的数据总量。
2)工作数据集也许更相关，在特定时间只能代表某个单一数据项。
3)处理工作是基于事件的，除非明确停止否则没有“尽头”。处理结果立刻可用，并会随着新数据的抵达继续更新。

流处理系统可以处理几乎无限量的数据，但同一时间只能处理一条（真正的流处理）或很少量（微批处理，Micro-batch Processing）数据，不同记录间只维持最少量的状态。虽然大部分系统提供了用于维持某些状态的方法，但流处理主要针对副作用更少，更加功能性的处理（Functional processing）进行优化。功能性操作主要侧重于状态或副作用有限的离散步骤。针对同一个数据执行同一个操作会或略其他因素产生相同的结果，此类处理非常适合流处理，因为不同项的状态通常是某些困难、限制，以及某些情况下不需要的结果的结合体。因此虽然某些类型的状态管理通常是可行的，但这些框架通常在不具备状态管理机制时更简单也更高效。此类处理非常适合某些类型的工作负载。有近实时处理需求的任务很适合使用流处理模式。分析、服务器或应用程序错误日志，以及其他基于时间的衡量指标是最适合的类型，因为对这些领域的数据变化做出响应对于业务职能来说是极为关键的。流处理很适合用来处理必须对变动或峰值做出响应，并且关注一段时间内变化趋势的数据。

混合处理系统：批处理和流处理

一些处理框架可同时处理批处理和流处理工作负载。这些框架可以用相同或相关的组件和API处理两种类型的数据，借此让不同的处理需求得以简化。这一特性主要是由Spark和Flink实现，实现这样的功能重点在于两种不同处理模式如何进行统一，以及要对固定和不固定数据集之间的关系进行何种假设。虽然侧重于某一种处理类型的项目会更好地满足具体用例的要求，但混合框架意在提供一种数据处理的通用解决方案。这种框架不仅可以提供处理数据所需的方法，而且提供了自己的集成项、库、工具，可胜任图形分析、机器学习、交互式查询等多种任务。

就像望远镜让我们能够感受宇宙，显微镜让我们能够观测微生物一样，大数据正在改变我们的生活以及理解世界的方式……

各大数据平台架构图

视频存储

离线日志分析

在线数据分析

戰士

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据基础概念（一）

大数据的意义一、大数据的存在，使同一款产品能为每一个用户提供服务，因为通过巨量数据的采集为每个用户都会展示最适合个人的内容。大数据中学会数据运营与分析整理；这是互联网与传统企业的核心区别，互联网可以快速积攒用户的各种数据和行为信息，这就是一种用户反馈，让用户用行为做反馈远比调查和设立客户服收集到的反馈更真实、更有效、更具价值。这就是很多大互联网公司其实客服多数都是外包 Callcent，多...
复制链接

扫一扫