大数据初学笔记-概论

转载 2017年07月17日 19:34:46

一、什么是大数据?

大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。



二、大数据的数据类型:

大数据包括体积庞大,高流速和可扩展的各种数据。它的数据为三种类型。

  • 结构化数据:关系数据。

  • 半结构化数据:XML数据。

  • 非结构化数据:Word, PDF, 文本,媒体日志。


三、大数据两大技术:

操作大数据

这些包括像MongoDB系统,提供业务实时的能力,这里主要是数据捕获和存储互动工作。

NoSQL大数据系统的设计充分利用已经出现在过去的十年,而让大量的计算,以廉价,高效地运行新的云计算架构的优势。这使得运营大数据工作负载更容易管理,更便宜,更快的实现。

一些NoSQL系统可以提供深入了解基于使用最少的编码无需数据科学家和额外的基础架构的实时数据模式。

分析大数据

这些包括,如大规模并行处理(MPP)数据库系统和MapReduce提供用于回顾性和复杂的分析,可能触及大部分或全部数据的分析能力的系统。

MapReduce提供分析数据的基础上,MapReduce可以按比例增加从单个服务器向成千上万的高端和低端机的互补SQL提供的功能,这是系统的一种新方法。

这两个类技术是互补的,并经常一起部署。

操作与分析系统

  操作 分析
等待时间 1 ms - 100 ms 1 min - 100 min
并发 1000 - 100,000 1 - 10
访问模式 写入和读取 读取
查询 选择 非选择性
数据范围 操作 回溯
最终用户 顾客 数据科学家
技术 NoSQL MapReduce, MPP 数据库

四、大数据四大特征:

大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
    一是数据体量巨大(Volume):
截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。

    二是数据类型繁多(Variety):
这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

    三是价值密度低(Value):
价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

    四是处理速度快(Velocity):

这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

五、数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库特点:

1. 面向主题

        面向主题特性是数据仓库和操作型数据库的根本区别。操作型数据库是为了支撑各种业务而建立,而分析型数据库则是为了对从各种繁杂业务中抽象出来的分析主题(如用户、成本、商品等)进行分析而建立;

        2. 集成性

        集成性是指数据仓库会将不同源数据库中的数据汇总到一起;

        3. 企业范围

        数据仓库内的数据是面向公司全局的。比如某个主题域为成本,则全公司和成本有关的信息都会被汇集进来;

        4. 历史性

        较之操作型数据库,数据仓库的时间跨度通常比较长。前者通常保存几个月,后者可能几年甚至几十年;

        5. 时变性

        时变性是指数据仓库包含来自其时间范围不同时间段的数据快照。有了这些数据快照以后,用户便可将其汇总,生成各历史阶段的数据分析报告;

数据仓库组件:

  数据仓库的核心组件有四个:各源数据库,ETL,数据仓库,前端应用。如下图所示:

   1. 业务系统

        业务系统包含各种源数据库,这些源数据库既为业务系统提供数据支撑,同时也作为数据仓库的数据源(注:除了业务系统,数据仓库也可从其他外部数据源获取数据);

        2. ETL

        ETL分别代表:提取extraction、转换transformation、加载load。其中提取过程表示操作型数据库搜集指定数据,转换过程表示将数据转化为指定格式并进行数据清洗保证数据质量,加载过程表示将转换过后满足指定格式的数据加载进数据仓库。数据仓库会周期不断地从源数据库提取清洗好了的数据,因此也被称为"目标系统";

        3. 前端应用

        和操作型数据库一样,数据仓库通常提供具有直接访问数据仓库功能的前端应用,这些应用也被称为BI(商务智能)应用;





六、CAP理论

  • 数据一致性(consistency):如果系统对一个写操作返回成功,那么之后的读请求都必须读到这个新数据;如果返回失败,那么所有读操作都不能读到这个数据,对调用者而言数据具有强一致性(strong consistency) (又叫原子性 atomic、线性一致性 linearizable consistency)[5]
  • 服务可用性(availability):所有读写请求在一定时间内得到响应,可终止、不会一直等待
  • 分区容错性(partition-tolerance):在网络分区的情况下,被分隔的节点仍能正常对外服务

在某时刻如果满足AP,分隔的节点同时对外服务但不能相互通信,将导致状态不一致,即不能满足C;如果满足CP,网络分区的情况下为达成C,请求只能一直等待,即不满足A;如果要满足CA,在一定时间内要达到节点状态一致,要求不能出现网络分区,则不能满足P。

 

C、A、P三者最多只能满足其中两个,和FLP定理一样,CAP定理也指示了一个不可达的结果(impossibility result)。



《数据库系统概论》复习笔记

期末复习顺便总结下,书本为高等教育出版社的《数据库系统概论》。
  • hcbbt
  • hcbbt
  • 2014年01月12日 01:03
  • 13476

概率论与数理统计(陈希孺)学习笔记

由于平常学习自然语言处理的很多算法都来源于概率论和数理统计,因此找来陈老先生的著作温习巩固一下。具体内容请参考原著,本文仅作个人学习记录。 1.基本概念 主观概率:可以理解为一个人针对某一事件的一种心...
  • u010161379
  • u010161379
  • 2016年02月29日 16:48
  • 4971

概率论与数理统计学习笔记

第一章 随机事件与概率 第二章 随机变量及其分布 第三章 多维随机变量及其分布 第四章 大数定律与中心极限定理 第五章 统计量及其分布 第六章 参数估计 第七章 假设检验 第八章 方差分...
  • luxialan
  • luxialan
  • 2016年05月06日 23:03
  • 3502

大数据概论.陈明

  • 2017年10月27日 22:54
  • 84.93MB
  • 下载

大数据概论课件

  • 2018年01月05日 21:02
  • 40.19MB
  • 下载

Hadoop大数据处理讲义-C1.海量数据处理概论

  • 2015年09月02日 14:41
  • 3.3MB
  • 下载

数据挖掘笔记(1)——概论、类型

概论 定义        海量数据  自动或半自动   有用规律 应用场景        不能清晰地定义问题        数据是否有价值        性价比是否合适 学习方式   ...
  • dananhai381
  • dananhai381
  • 2013年08月26日 18:01
  • 657

数据库概论学习笔记------数据的完整性约束

15.4 数据完整性的概念与实施方法5.4.1 数据完整性概念数据完整性是指数据的正确性、完备性和一致性是 衡量数据库质量好坏的重要标准。在用INSERT、DELETE、UPDATE语...
  • H002399
  • H002399
  • 2015年09月21日 21:04
  • 495

数据库系统概论学习笔记(七):安全性,数据完整性(触发器)

安全第一所以,这部分真的只是过一下而已!走马观花的过一下而已!!数据...
  • credolhcw
  • credolhcw
  • 2017年03月01日 13:55
  • 206

《MYSQL入门很简单》学习笔记1——概论,数据类型,操作数据库

原文链接 第1章 数据库概论 一、数据库理论基础 1.数据存储方式 人工管理阶段 文件系统阶段 数据库系统阶段   2.数据库泛型 1NF...
  • klxiaohao
  • klxiaohao
  • 2012年05月22日 23:24
  • 377
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:大数据初学笔记-概论
举报原因:
原因补充:

(最多只允许输入30个字)