第一章 理解大数据

本文是基于《大数据导论》的读书笔记,介绍了大数据的基本概念,包括大数据、数据分析及其分类,以及商务智能和关键性能指标(KPI)。文章还详细阐述了大数据的6V特征——数据量、速度、多样性、准确性、连通性和价值。此外,讨论了结构化、非结构化和半结构化数据类型,并解释了元数据的种类和作用。
摘要由CSDN通过智能技术生成

近期阅读Thoma Erl的《大数据导论》这本书,随手读书笔记。

(一)概念与术语

1. 大数据:对大量的、频繁产生于不同信息源的数据进行存储、处理和分析的学科。

2. 数据集:一组或一个集合相关联的数据,拥有相同的特征和属性。

3. 数据分析:为了做出更好的决策,通过数据处理,从数据中发现一些深层知识、模式、关系或是趋势的过程。

4. 数据分析学:对整个数据周期的管理。

5. 大数据分析结果分为四类:

(1)描述性分析(发生了什么):广泛的、精确的实时数据,有效的可视化;

(2)诊断性分析(为什么会发生):能够钻取到数据的核心,对混乱的信息进行分离;

(3)预测性分析(可能会发生什么):使用算法确保历史模型能够用于预测待定的结果,使用算法和技术确保自动生成决定;

(4)策略性分析(prescriptive analytics,应采取什么措施):依据测试结果来选定最佳行为与策略,应用先进的分析技术帮助做出决策

https://i-blog.csdnimg.cn/blog_migrate/fb3b92da4bbc1fab1f4eb046ff38399c.png

6.商务智能:分析有业务过程和信息系统生成的数据,获取企业绩效的内在认识。

7. KPI:一次业务过程是否成功的度量标准。

(二)大数据特征(6V)

数据量(volume),速度(velocity),多样性(variety),准确性(veracity),连通性(valence)和价值(value)。

其中连通性是指数据的连接性,即连接的数据项与可能连接的总数的分数。当两个数据相关的时候,则称这两个数据相互连接。而连接性会随着时间越来越大,导致数据关系越来越复杂,于是群体事件预测、关系变化的建模与预测等等也会越来越复杂。

(三)数据类型

1. 结构化数据:固定的格式,存储于关系型数据库,如表格。

2. 非结构化数据:没有统一的数据模式,可存储于关系型数据可或非关系型数据库,如视频数据、音频数据、图像数据。

3. 半结构化数据:介于上述两类数据之间,如XML数据、JSON数据、传感器数据。

4. 元数据:由机器生成并且可以添加到数据集中,提供了数据系谱信息以及数据处理的起源。分为三种类型:

(1)结构性元数据;与事物构成有关的元数据。

(2)管理性元数据;与事物处理方式有关的元数据。

(3) 描述性元数据;与事物本质有关的元数据。

 

学习问题汇总:

Question1:数据分析学与数据分析的区别?

答:数据分析学是方法论,数据分析是方法,数据分析学涵盖数据分析。

Question2OLAPOLTP的区别?

Question3drill-down roll-up的意思?

答:drill-down是指进一步精确某一变量,roll-up是指精简变量。

Question4数据库与数据仓库的区别?

答:数据库是指传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易;数据仓库系统的主要应用主要是OLAP,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

Question5:元数据的用途?

答:举几个简单的例子:

使用过数码相机同学都应该知道,每张数码照片都会存在一个EXIF信息。它就是一种用来描述数码图片的元数据。 根据EXIF标准,这些元数据包括:Image Description(图像描述、来源,指生成图像的工具 )、Artist(作者)、Make( 生产者)、Model (型号)等等。

       生活中我们填写的《个人信息登记表》,包括姓名、性别、民族、政治面貌、一寸照片、学历、职称等等这些就是锁定某个人的元数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值