大数据初学笔记-概论

转载 2017年07月17日 19:34:46

一、什么是大数据?

大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。



二、大数据的数据类型:

大数据包括体积庞大,高流速和可扩展的各种数据。它的数据为三种类型。

  • 结构化数据:关系数据。

  • 半结构化数据:XML数据。

  • 非结构化数据:Word, PDF, 文本,媒体日志。


三、大数据两大技术:

操作大数据

这些包括像MongoDB系统,提供业务实时的能力,这里主要是数据捕获和存储互动工作。

NoSQL大数据系统的设计充分利用已经出现在过去的十年,而让大量的计算,以廉价,高效地运行新的云计算架构的优势。这使得运营大数据工作负载更容易管理,更便宜,更快的实现。

一些NoSQL系统可以提供深入了解基于使用最少的编码无需数据科学家和额外的基础架构的实时数据模式。

分析大数据

这些包括,如大规模并行处理(MPP)数据库系统和MapReduce提供用于回顾性和复杂的分析,可能触及大部分或全部数据的分析能力的系统。

MapReduce提供分析数据的基础上,MapReduce可以按比例增加从单个服务器向成千上万的高端和低端机的互补SQL提供的功能,这是系统的一种新方法。

这两个类技术是互补的,并经常一起部署。

操作与分析系统

  操作 分析
等待时间 1 ms - 100 ms 1 min - 100 min
并发 1000 - 100,000 1 - 10
访问模式 写入和读取 读取
查询 选择 非选择性
数据范围 操作 回溯
最终用户 顾客 数据科学家
技术 NoSQL MapReduce, MPP 数据库

四、大数据四大特征:

大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
    一是数据体量巨大(Volume):
截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。

    二是数据类型繁多(Variety):
这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

    三是价值密度低(Value):
价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

    四是处理速度快(Velocity):

这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

五、数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库特点:

1. 面向主题

        面向主题特性是数据仓库和操作型数据库的根本区别。操作型数据库是为了支撑各种业务而建立,而分析型数据库则是为了对从各种繁杂业务中抽象出来的分析主题(如用户、成本、商品等)进行分析而建立;

        2. 集成性

        集成性是指数据仓库会将不同源数据库中的数据汇总到一起;

        3. 企业范围

        数据仓库内的数据是面向公司全局的。比如某个主题域为成本,则全公司和成本有关的信息都会被汇集进来;

        4. 历史性

        较之操作型数据库,数据仓库的时间跨度通常比较长。前者通常保存几个月,后者可能几年甚至几十年;

        5. 时变性

        时变性是指数据仓库包含来自其时间范围不同时间段的数据快照。有了这些数据快照以后,用户便可将其汇总,生成各历史阶段的数据分析报告;

数据仓库组件:

  数据仓库的核心组件有四个:各源数据库,ETL,数据仓库,前端应用。如下图所示:

   1. 业务系统

        业务系统包含各种源数据库,这些源数据库既为业务系统提供数据支撑,同时也作为数据仓库的数据源(注:除了业务系统,数据仓库也可从其他外部数据源获取数据);

        2. ETL

        ETL分别代表:提取extraction、转换transformation、加载load。其中提取过程表示操作型数据库搜集指定数据,转换过程表示将数据转化为指定格式并进行数据清洗保证数据质量,加载过程表示将转换过后满足指定格式的数据加载进数据仓库。数据仓库会周期不断地从源数据库提取清洗好了的数据,因此也被称为"目标系统";

        3. 前端应用

        和操作型数据库一样,数据仓库通常提供具有直接访问数据仓库功能的前端应用,这些应用也被称为BI(商务智能)应用;





六、CAP理论

  • 数据一致性(consistency):如果系统对一个写操作返回成功,那么之后的读请求都必须读到这个新数据;如果返回失败,那么所有读操作都不能读到这个数据,对调用者而言数据具有强一致性(strong consistency) (又叫原子性 atomic、线性一致性 linearizable consistency)[5]
  • 服务可用性(availability):所有读写请求在一定时间内得到响应,可终止、不会一直等待
  • 分区容错性(partition-tolerance):在网络分区的情况下,被分隔的节点仍能正常对外服务

在某时刻如果满足AP,分隔的节点同时对外服务但不能相互通信,将导致状态不一致,即不能满足C;如果满足CP,网络分区的情况下为达成C,请求只能一直等待,即不满足A;如果要满足CA,在一定时间内要达到节点状态一致,要求不能出现网络分区,则不能满足P。

 

C、A、P三者最多只能满足其中两个,和FLP定理一样,CAP定理也指示了一个不可达的结果(impossibility result)。



大数据概论

社交网络分析 (SNA)
  • u012459917
  • u012459917
  • 2014年09月15日 22:13
  • 456

大数据(读书笔记)

1. 思维变革     1)更多:不是随机样本,而是全体数据     2)更杂:不是精确性,而是混杂性     3)更好: 不是因果关系,面是相关关系     大数据,改变人类探索世界的方法。 2. ...
  • MyArrow
  • MyArrow
  • 2015年11月05日 09:15
  • 1173

大数据学习笔记-------------------(17_2)

17.2 简单消费者实例          已经创建一个producer给Kafka集群发送信息。现在需要创建一个consumer来接收来自集群中的信息。KafkaConsumer API习惯用语接收...
  • henni_719
  • henni_719
  • 2016年10月14日 09:46
  • 495

《数据库系统概论》复习笔记

期末复习顺便总结下,书本为高等教育出版社的《数据库系统概论》。
  • hcbbt
  • hcbbt
  • 2014年01月12日 01:03
  • 14657

《数据库系统概论》学习笔记【未完】

这学期很幸运,可以上一节非常感兴趣的课,但是由于前阵子比较忙,在进度上落下来不少。所以特意抽出一下午的时间赶赶进度,顺便复习下这门课。选材:《数据库系统概论(第五版)》-作者:王珊,萨师煊由于前两章,...
  • zhaiax672
  • zhaiax672
  • 2017年04月28日 19:06
  • 564

数据库系统概论学习笔记(一):基本概念

最最最基本的概念
  • credolhcw
  • credolhcw
  • 2017年02月11日 22:32
  • 993

如何学习大数据,到底怎么学?数据科学概论与大数据学习误区在哪

数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知。” 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题。由于大...
  • ksn1125
  • ksn1125
  • 2017年10月21日 10:50
  • 302

电商概论上课笔记-作业四

//2015年2月21日 //因为课程冲突,只是偶尔去蹭了几节课 //有关互联网、电商的一切,不同于其他学科,在社会上已经被讨论的很热烈了,因此老师上课难度变的很大。 1.互联网产品和服务为什么...
  • u013599826
  • u013599826
  • 2015年02月22日 09:34
  • 927

软件工程概论笔记(三)

面向对象分析 面向对象分析概述 面向对象的三种模型:用例模型、对象模型、动态模型 用例模型:确定外部参与者、确定用例、绘制用例图 外部参与者:根据人员和组织、外部系统、设备来确定 用例和用例...
  • mr_guo_lei
  • mr_guo_lei
  • 2018年01月01日 10:50
  • 64

电商概论上课笔记--作业一

//2015年2月21日 //因为课程冲突,只是偶尔去蹭了几节课 //有关互联网、电商的一切,不同于其他学科,在社会上已经被讨论的很热烈了,因此老师上课难度变的很大。 (1)收集近10年来谷歌,苹果...
  • u013599826
  • u013599826
  • 2015年02月22日 09:08
  • 1115
收藏助手
不良信息举报
您举报文章:大数据初学笔记-概论
举报原因:
原因补充:

(最多只允许输入30个字)