大数据导论期末复习知识汇总

master负责创建分块句柄，维护元数据，为client提供用于读写的相关元数据，指导分块服务器工作，查看分块服务器状态（创维提供指导查看）
chunkserver负责存储数据的分块，分块的迁移，直接与client进行主数据的通信
只能有一个master，可以有若干个chunkserver
client读写数据需要与master和chunkserver服务器结点交互
GFS解决复杂工程问题的设计细节：数据校验和的作用：保证数据的完整性和准确性

减少元数据的目的：减少存储空间、提高性能、减少网络传输成本、提高隐私和安全性、简化数据管理和维护、改善数据质量

一份文件被分为多个固定大小的chunk（默认64M），每个chunk有全局唯一的文件句柄－－一个64位的chunk ID，每一份chunk会被复制到多个chunkserver（默认值是3)，以此保证可用性与可靠性。chunkserver将chunk当做普通的Linux文件存储在本地磁盘上。master向client提供用于读写的相关元数据的时候产生分块句柄。
分块句柄的作用：利于master为client提供用于读写的相关元数据，利于chunkserver直接与client进行主数据的通信。
文件以本地文件的形式保存在Chunk Server，不在client或ChunkServer进行缓存
每个分块默认有三个
GFS和HDFS都是主从架构

4.Hadoop HDFS

文件为何不整体上传而先分块：
水平复制机制，由谁生成数据的副本：
机架感知，由谁保存数据的副本：
HDFS的水平复制是否是GFS在分块在分块服务器上迁移的一种实现？
为什么生成副本的工作不完全交给客户端完成：

思想：分布式存储——解决存储容量、数据安全问题

客户端将数据存储到HDFS管理的存储设备上的顺序是：

考虑传输效率和数据安全，第一个副本保存在与客户端较近的机架中DataNode
考虑数据安全，第二个保存在与第一个副本不同的机架的不同的DataNode中
考虑传输效率，第三个保存在第一个相同的机架，不同的DataNode中

5.Big Table

BigTable是分布式的关系表、不支持完整的关系数据模型、用于管理结构化数据，是稀疏的、分布式的、持久化的、多维的、排序的映射。

思想：空间换时间

Oracle（OldSQL）:利用主键和外键

HBase（NoSQL）:利用行键和列族

6.MapReduce

PageRank算法原理：
- 有向图的邻接矩阵
- 转移概率矩阵
用户程序：对文件进行切片、调用MapReduce函数、指定map worker和reduce worker的数量、指定map函数和reduce函数执行的具体任务。
master：分配map任务和reduce任务给空闲的服务器、协调reduce worker读map worker产生的中间数据、唤醒用户程序返回最终结果。
map：将切片解析为键值对、执行map任务、将中间结果存储的本地磁盘位置传达给master。
reduce：远程读存储在map worker本地磁盘上的中间结果、对中间结果进行排序、执行reduce任务、将结果写入输出文件
MapReduce计算模型借鉴了何种算法思想：函数式编程和分布式计算的思想
分布式计算：解决计算效率问题

运行过程如下：
Split：对文件输入数据进行切片切分

RecordReader：给每个元素进行赋值为1操作

Map：对每个切片中的元素整合累加并排序。

Shuffle--partition：对Map的每个部分进行分区处理

7.YARN——分布式资源调度技术

（二）大数据技术体系

1、Hadoop的优势：

易用性（低成本）
高可靠性（高容错性）
高效性
高扩展性

2、大数据的产业：

IT基础设施层：硬件、软件、网络等基础设施
数据源层：大数据生态圈里的数据提供者
数据管理层：数据抽取、转换、存储和管理等服务的各类企业或产品
数据分析层：分布式计算、数据挖掘、统计分析
数据平台层：数据分享平台、数据分析平台、数据租售平台
数据应用层：行业应用

三、大数据与云计算、物联网、人工智能

（一）云计算

信息产业三大革命：个人计算机革命、互联网革命、云计算革命

云计算的应用，加速了信息产业规模化、专业化、精细化、自主化

概念：通过网络、以服务的方式，提供廉价的IT资源，是一种商业模式
特点：
- 超大规模计算、高可靠性、安全性、动态扩展性------分布式存储、计算技术
- 虚拟化、通用性、按需服务------虚拟化技术、多租户技术
- 降低成本------商业模式
关键技术：
- 虚拟化技术：抽象、隐藏、通用、在不同层次展现出不同面貌
- 分布式存储技术：虚拟存储设备、可靠性、安全性、可扩展的系统结构
- 分布式计算技术：共享计算资源、平衡计算负载
- 多租户技术：共性资源共享、个性资源隔离
部署方式和服务模式：

（1）部署方式：
- 公有云：共享资源、任意用户访问、可拓展性
- 私有云：安全性、私密性、专有资源（用户对数据掌握程度最大）
- 社区云/行业云：介于公有云和私有云之间，敏感行业
- 混合云：以上三种中的任意混合，有固定的部署方案、权衡考虑
（2）服务模式：
- 软件即服务（SaaS）：
  - 应用软件层：应用软件+平台软件层+基础设施层=SaaS
  - 使用基于云的Web应用程序
  - 租户需要管理软件产生的数据信息
- 平台即服务（PaaS）：
  - 平台软件层：中间件&运行库、数据库、操作系统+基础设施层=PaaS
  - 提供用于开发、测试和管理应用程序的云平台
- 基础架构即服务（IaaS）：
  - 基础设施层：服务器、虚拟机、计算机网络、机房基础设施=IaaS
  - 提供基本的计算基础结构、虚拟数据中心
灵活性：

IaaS>PaaS>SaaS
部署方式和服务模式与关键技术的联系：

云计算的服务模式以虚拟化技术作为主要支撑

云计算的部署方式以多租户技术作为主要支撑

（二）物联网

1、概念：利用局域网或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起，形成人与物、物与物相联，实现信息化和远程管理控制

2、关键技术：

识别和感知技术：
- 二维码：信息容量大、编码范围广、容错能力强、译码可靠性高、成本低易制作
- RFID（射频识别）：全天候、无接触、可同时实现多个物体自动识别
- 传感器：微型化、数字化、智能化、网络化
  
  借助传感器实现对物理世界的感知
网络与通信技术：

远距离无线连接的全球数据网络、互联网、移动通信网络、卫星通信网络

近距离的蓝牙技术，红外技术、Zigbee技术、NFC、Wi-Fi
数据挖掘与融合技术：云计算、云存储、云服务、大数据等

3、物联网、云计算、大数据的关系

（三）人工智能

1、概念：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

2、关键技术：

机器学习：
- 机器学习的处理过程是一个闭环学习的过程
- 在机器学习研究领域中，
  - 模型是学习算法在历史数据上通过训练而得到的结果
  - 模型是学习算法学得的由输入到输出的映射
  - 模型可以用于预测新的数据的未知属性
- 机器学习的主要研究对象是---学习算法
知识图谱：显示知识发展进程与结构关系的一系列各种不同的图形。
自然语言处理（NLP）：用计算机对自然语言的形、音、义等信息进行处理，实现人机间的信息交流。
- 自然语言理解：计算机能够理解自然语言文本的意义
- 自然语言生成：能以自然语言文本来表达给定的意图
- 表现形式：机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别
人机交互：研究系统与用户之间的交互关系的学科
计算机视觉（CV）：指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量的机器视觉，并进一步做图像处理，成为更适合人眼观察或传送给仪器检测的图像
生物特征识别：指纹、掌纹、人脸......
AR/VR：
- 虚拟现实（VR）
- 增强现实（AR）

3、人工智能与大数据的关系

四、大数据技术

（一）数据采集与预处理

数据采集方式：离线采集、实时采集、互联网采集
数据采集要点：全面性、多维性、高效性
数据源：
- 企业业务系统数据
- 传感器
- 日志文件
- 互联网数据：借助网络爬虫，定向抓取
数据清洗：
- 数据类型：残缺数据、错误数据、重复数据
- 内容：
  - 一致性检查：超出正常范围、逻辑上不合理或者相互矛盾的数据。
  - 无效值和缺失值的处理：由于调查、编码和录入误差，数据中可能存在一些无效值和缺失值
- 方法：
  
  数据清洗方法：
  
  不改变样本数量：变量删除、成对删除、估算
  
  增强数据的可用性：估算
  
  不改变原有数据：成对删除、估算
ETL流程（抽取extract、转换transform、加载load）

（二）数据存储与管理

传统数据存储技术

传统的数据存储和管理一般以结构化数据为主，文件系统和数据库是主流技术

数据仓库：面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。

数据库与数据仓库的区别：数据库是面向事务、捕获数据（OLTP，联机事务处理）；数据仓库面向主题、分析数据（OLAP，联机分析处理）。
大数据时代的存储技术（记住以下三种存储技术，不包括数据仓库）
- 分布式文件系统
- NoSQL：灵活的可扩展性、灵活的数据模型、与云计算紧密融合
  
  数据模型是类似列族、键/值、文档等非关系模型
  
  简单的数据模型、灵活的IT系统，较高的数据库性能和较低的数据库保持一致
- NewSQL：具有对海量数据的存储管理能力，还保持了传统数据库支持ACID和SQL等特性。
数据库构架的变革