《云计算与大数据》学习笔记(上)

一、考点概述

chp1:理解大数据概念、大数据(4V特性)
chp2:数据采集、数据集成、数据预处理
chp3:HDFS特点、分布式文件系统对比、Nosql数据库对比
chp4:略
chp5:数据可视化技术及其优缺点
chp6:大数据加密解密技术、如何做一个加密解密模型、PKI证书和PMI证书的区别
(笔记包含但不限于以上内容,考点在框框里)


二、章节内容

chp1 绪论

理解大数据概念
数据(分类)->大数据(4V特性)->带来了思维方式的变化
                    ->对计算过程带来的影响


1、结构化、半结构化、非结构化数据:
在这里插入图片描述
数据处理的一般过程
•数据获取:
– 数据获取后,需要对数据进行变换、清洗等预处理,输出满足数据应用要求的数据。
•数据管理:
– 对数据进行分类、编码、存储、索引和查询。
•数据分析:
– 描述性分析、诊断性分析、预测性分析和规范性分析。
•数据可视化与交互分析:
– 帮助业务人员而非数据处理专家更好的理解数据分析的结果。

2、大数据:4V特性
Volume、Velocity、Variety、Value
在这里插入图片描述

3、思考的变化
•采样 vs 全样
•精确 vs 非精确(效率)
•因果 vs 关联

4、计算过程的变化:
应对规模化
蛮算变巧算
在这里插入图片描述

chp2 数据采集与治理

大数据的来源-数据采集-数据集成-数据预处理

1、大数据的来源:
对现实世界的测量
•通过感知设备获得数据
人类的记录
•由人录入计算机形成数据
计算机生成的数据
•计算机通过现实世界模拟等程序生成数据

2、常用的数据采集方式:
用于采集物理世界信息的传感器
用于采集数字设备运行状态的日志文件
用于采集互联网信息的网络爬虫
用于采集人所了解信息的众包和群智感知技术


3、数据集成
数据集成是把不同来源、格式、性质的数据在逻辑上或物理上有机地集中,通过一种一致的、精确的、可用的表示法,对同一种现实世界中的实体对象的不同数据做整合的过程,从而提供全面的数据共享,经过数据分析挖掘产生有价值的信息。数据集成可以分为传统数据集成和跨界数据集成。

①传统数据集成
在这里插入图片描述
模式匹配是标识两个数据对象是语义相关的过程
•基于模式信息
•基于模式和实例
•基于约束
•基于历史信息
数据映射是数据在两个不同的数据模型之间进行转换的过程
•直接数据映射
•语义映射
语义翻译是使用语义信息来帮助将一个数据模型中的数据转换为另一个表示或数据模型的过程,语义翻译要求源系统和目标系统中的数据元素具有到中央注册表或数据元素注册表的“语义映射”。


②跨界数据集成
在这里插入图片描述
4、数据预处理
数据变换
在这里插入图片描述
数据质量的维度:
数据不一致
数据精度低
数据不完整
数据陈旧
实体不同一


不一致检测与修复-缺失值填充-实体识别(解决冗余问题和重名问题)-真值发现


chp3大数据管理

1、概念:数据管理技术是指对数据进行分类、编码、存储、索引和查询,是大数据处理流程中的关键技术,负责数据从落地存储(写)到查询检索(读)的核心系统。

2、关系型数据库与结构化查询语言
关系型数据库特点:
关系数据模型是以集合论中的关系概念为基础发展起来的。关系数据模型中无论是实体还是实体间的联系均由单一的数据结构——关系来表示。关系数据模型中对的数据操作通常由关系代数和关系演算两种抽象操作语言来完成,此外关系数据模型中还通过实体完整性、参照完整性和自定义完整性来确保数据的完整一致。

3、分布式文件系统

HDFS作为Hadoop的分布式文件系统,其功能为数据的存储、管理和出错处理。它是类似于GFS的开源版本,设计的目的是用于可靠地存储大规模的数据集,并提高用户访问数据的效率。

特点
在这里插入图片描述
分布式文件系统对比
在这里插入图片描述

4、Nosql数据库

Nosql数据库对比:
在这里插入图片描述

Nosql数据库特点:
NoSQL(Not only SQL)数据库是对于非关系型的一类数据库系统的统称。它针对关系型数据库在管理键值对、文档、图等类型数据上的不足,针对各个类型数据的存储和访问特点而专门设计的数据库管理系统。

NoSQL数据库设计原则:
•采用横向扩展 (Scaling Out)的方式,通过对大量节点的并行处理,获得包括读性能和写性能在内的极高数据处理性能和吞吐能力。NoSQL数据库需要对数据进行划分,以便进行并行查询处理。
•放弃严格的ACID一致性约束,采用放松的一致性约束条件,允许数据暂时出现不一致的情况,并接受最终一致性。
•对数据进行容错处理,一般对数据块进行适当备份,以应对结点失败状况,保证在普适服务器组成的集群上稳定高可靠地运行。

sql on hadoop
在这里插入图片描述
在这里插入图片描述
Spark SQL是实现大数据交互式SQL查询的处理系统,包括接口Spark SQL和处理引擎Spark Core。Spark是一个分布式容错内存集群,通过基于血统关系的数据集重建技术,实现内存计算的容错。
在这里插入图片描述

Sql-on-Hadoop技术与数据库技术的差异在哪?
数据的存储不同,传统数据库只在一台或是几台机器上,机器之间的数据都是整块存储的。比如一个表就存在一个服务器上,所以查询sql的时候是直接提到内存查找,SQL-on-Hadoop解决的是数据表存在hadoop集群上,因为hadoop的块存储可能会使一个表跨多台服务器,那查表的时候要在多台服务器上查询,同时不同的sql查询的逻辑也不一样,这就需要一个分布式的sql引擎,这就是SQL-on-Hadoop的核心思想。

chp4 数据分析


chp5 数据可视化

1、数据可视化技术及其优缺点
①数据可视化的主要技术——高维数据可视化
常用的高维数据可视化技术:
·散点图矩阵
·平行坐标
·降维投影图
·雷达图(RadViz)
在这里插入图片描述

样本拥有多个属性
以表格为例
·一列代表一个维度/变量
·一行代表一个样本/数据对象

挑战
·人无法直观想象高维数据分布情况
·人不善于同时处理多维度信息

②数据可视化的主要技术——网络数据可视化
不同的网络
·社交网络/合作网络/交通网络 ……

组成元素
·实体/关系

表现形式
·点边图 (Node-link Diagram)
·实体 -> 节点
·关系 -> 边

大规模网络可视化
研究问题
·生成网络布局(计算节点位置),反应网络结构特征

挑战
·计算布局耗时
·视觉混淆

研究内容:
·布局算法
·表现形式

③数据可视化的主要技术——层次结构数据可视化
树形结构
·特点:数据中的个体之间存在层次关系

相比较图结构:
·节点之间不存在环;
·除根节点外,每一个孩子节点存在一个指向该节点的父亲节点

节点类型:
·根节点:最上层(即不存在父亲节点)的节点
·叶节点:最下层(即不存在孩子节点)的节点
·兄弟节点:同一个层次且具有相同父节点的节点

信息可视化中被广泛研究的重要方向

针对层次结构数据可视化的研究丰富:
·布局方式以及交互方式
针对层次结构数据可视化的方法多种多样:
·依据父子关系的映射方式分类
-显示映射
-隐式映射

显式映射(节点-链接)
视觉映射:元素映射到节点;
父子关系映射到节点之间的连线
核心:节点布局算法
优点:
·直观清晰地表达层次数据的拓扑结构
·可视化形式符合用户对于层次结构数据的认知
缺点:
·空间利用率较低
方法:径向布局,双曲线树


隐式映射
视觉映射:父子关系映射到节点之间的包含关系
研究内容:
·尽可能保持叶节点的长宽比
·当数据发生变化,尽可能保持树图稳定
优点:
·空间利用率高
缺点:
·视觉映射不够直观
·难以区分不同关系的节点
方法:采用相邻位置映射父子关系

④数据可视化的主要技术——时空数据可视化
时空数据可视化分类
·直接可视化
·聚集可视化
·特征可视化

⑤数据可视化的主要技术——文本可视化
大规模文本数据整体可视分析
标签云(Tag Cloud)
Wordle

聚类分析
将抽象的对象按照其相似性进行分组

聚类算法:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。

chp6 数据安全与隐私保护

1、大数据加密解密
数据加密技术 在这里插入图片描述

对称加密算法:加密解密用相同的密钥
在这里插入图片描述

非对称密码算法:加密解密用不同的密钥 保密模型
在这里插入图片描述

鉴别模型(数字签名)
在这里插入图片描述
理解:既然是加密,那肯定是不希望别人知道我的消息,所以只有我才能解密,所以可得出公钥负责加密,私钥负责解密;同理,既然是签名,那肯定是不希望有人冒充我发消息,只有我才能发布这个签名,所以可得出私钥负责签名,公钥负责验证。

2、如何做一个加密解密模型
具有保密和鉴别功能的公开密码模型:
在这里插入图片描述
3、PKI证书和PMI证书的区别
PKI :进行身份鉴别,证明用户身份,即“你是谁”;
PMI:授权管理,界定用户使用权限,即“你能做什么”
之间的关系类似于护照和签证的关系:
护照:身份证明,唯一标识个人信息,证明你是一个合法的公民
签证类别:持有哪一类别的签证在该国家可以进行哪一类的合法活动

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值