大数据导论期末复习知识汇总

目录

一、大数据概述

(一)数据和信息

(二)数据的组织形式和生命周期:

(三)数据转化为信息的过程:

(四)数据的价值

(五)大数据的内涵

(六)大数据的5V特性

(七)数据产生方式经历的三个阶段

(八)信息化浪潮的标志及解决问题

(九)大数据对科学研究的影响

(十)信息科技为大数据时代提供技术支撑

二、大数据核心技术概述

(一)大数据核心技术——分布式技术

1.Apache Hadoop技术栈

2.Google搜索引擎的核心任务:

3.GFS

4.Hadoop HDFS

5.Big Table

6.MapReduce

7.YARN——分布式资源调度技术

(二)大数据技术体系

1、Hadoop的优势:

2、大数据的产业:

三、大数据与云计算、物联网、人工智能

(一)云计算

(二)物联网

(三)人工智能

四、大数据技术

(一)数据采集与预处理

(二)数据存储与管理

(三)数据分析与处理

(四)数据可视化

(五)数据安全与隐私保护

五、大数据典型行业应用

推荐系统

推荐方法

六、大数据安全与数据开放共享

(一)大数据安全

(二)数据共享和数据开放


一、大数据概述

(一)数据和信息

  • 数据是一种可以被鉴别的,对客观事情进行记录符号。(数据是构成信息的基本单位)

  • 常见的数据类型:文本、图片、音频、视频等。

  • 信息:数据的有序排列组合而成,传达概念方法。

(二)数据的组织形式和生命周期:

  • 数据的组织形式主要包括:文件数据库

  • 数据的生命周期:数据从创建->修改->发布利用->归档/销毁的整个过程。

  • 文件在计算机内部是以文件系统的方式进行管理。

  • 大数据环境下,数据生命周期的6个阶段:

    数据采集--存储--处理--传输--交换--销毁

  • 数据存储和数据处理分别在计算机哪些部件上进行?

    答:数据存储:硬盘驱动器(HDD)、固态驱动器(SSD)、随机存储器(RAM)、缓存

              数据处理:中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DS)、专用协处理器

  • 传统的数据库有哪些类型:

    答:关系型、层次型、网络型(、平面文件、对象)

(三)数据转化为信息的过程:

数据清洗--数据管理--数据分析

(四)数据的价值

(五)大数据的内涵

  • 数据层面:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

  • 技术层面:使用分布式技术完成海量数据处理,以得到数据背后蕴含的价值

  • 数据单位:

(六)大数据的5V特性

(七)数据产生方式经历的三个阶段

  1. 运营式系统阶段:被动产生

  2. 用户原创内容阶段:主动产生

  3. 感知式系统阶段:自动产生

(八)信息化浪潮的标志及解决问题

  1. 个人计算机——解决信息存储问题

  2. 互联网——解决信息传输问题

  3. 物联网、大数据、云计算——解决信息爆炸问题

(九)大数据对科学研究的影响

科学研究上,先后经历了实验理论计算数据四种范式

  1. 计算科学和数据密集型科学的区别:

  • 计算科学数据密集型科学都是利用计算机进行计算

二者区别:

  • 计算科学先提出可能的理论,再搜集数据,然后通过计算验证

  • 数据密集型科学先有大量的已知数据,然后通过计算得到之前未知的理论

(十)信息科技为大数据时代提供技术支撑

存储能力、传输能力、计算能力

二、大数据核心技术概述

(一)大数据核心技术——分布式技术

1.Apache Hadoop技术栈

开源的分布式处理技术栈

  • 基于Hadoop HDFS的分布式数据存储技术(Hadoop Distributed File System)

  • 基于Hadoop YARN的分布式资源调度技术(Yet Another Resource Negotiator)

  • 基于Hadoop MapReduce的分布式数据计算技术

2.Google搜索引擎的核心任务:

  • 数据采集数据搜索

3.GFS

  • master负责创建分块句柄,维护元数据,为client提供用于读写的相关元数据,指导分块服务器工作,查看分块服务器状态(创维提供指导查看)

  • chunkserver负责存储数据的分块,分块的迁移,直接与client进行主数据的通信

  • 只能有一个master,可以有若干个chunkserver

  • client读写数据需要与masterchunkserver服务器结点交互

  • GFS解决复杂工程问题的设计细节: 数据校验和的作用:保证数据的完整性和准确性

    减少元数据的目的:减少存储空间、提高性能、减少网络传输成本、提高隐私和安全性、简化数据管理和维护、改善数据质量

  • 一份文件被分为多个固定大小的chunk(默认64M),每个chunk有全局唯一的文件句柄 -- 一个64位的chunk ID,每一份chunk会被复制到多个chunkserver(默认值是3),以此保证可用性与可靠性。chunkserver将chunk当做普通的Linux文件存储在本地磁盘上。master向client提供用于读写的相关元数据的时候产生分块句柄。

  • 分块句柄的作用:利于master为client提供用于读写的相关元数据,利于chunkserver直接与client进行主数据的通信。

  • 文件以本地文件的形式保存在Chunk Server,不在client或ChunkServer进行缓存

  • 每个分块默认有三个

  • GFS和HDFS都是主从架构

4.Hadoop HDFS

  • 文件为何不整体上传而先分块:

  • 水平复制机制,由谁生成数据的副本:

  • 机架感知,由谁保存数据的副本:

  • HDFS的水平复制是否是GFS在分块在分块服务器上迁移的一种实现?

  • 为什么生成副本的工作不完全交给客户端完成:

思想:分布式存储——解决存储容量、数据安全问题

  • 客户端将数据存储到HDFS管理的存储设备上的顺序是:

  1. 考虑传输效率和数据安全,第一个副本保存在与客户端较近的机架中DataNode

  2. 考虑数据安全,第二个保存在与第一个副本不同的机架的不同的DataNode中

  3. 考虑传输效率,第三个保存在第一个相同的机架,不同的DataNode中

5.Big Table

BigTable是分布式的关系表、不支持完整的关系数据模型、用于管理结构化数据,是稀疏的、分布式的、持久化的、多维的、排序的映射。

思想:空间换时间

Oracle(OldSQL):利用主键和外键

HBase(NoSQL):利用行键和列族

6.MapReduce

  • PageRank算法原理:

    • 有向图的邻接矩阵

    • 转移概率矩阵

  • 用户程序:对文件进行切片、调用MapReduce函数、指定map worker和reduce worker的数量、指定map函数和reduce函数执行的具体任务。

  • master:分配map任务和reduce任务给空闲的服务器、协调reduce worker读map worker产生的中间数据、唤醒用户程序返回最终结果。

  • map:将切片解析为键值对、执行map任务、将中间结果存储的本地磁盘位置传达给master。

  • reduce:远程读存储在map worker本地磁盘上的中间结果、对中间结果进行排序、执行reduce任务、将结果写入输出文件

  • MapReduce计算模型借鉴了何种算法思想:函数式编程和分布式计算的思想

  • 分布式计算:解决计算效率问题

    运行过程如下:

  • Split:对文件输入数据进行切片切分

RecordReader:给每个元素进行赋值为1操作

Map:对每个切片中的元素整合累加并排序。

Shuffle--partition:对Map的每个部分进行分区处理

7.YARN——分布式资源调度技术

(二)大数据技术体系

1、Hadoop的优势:

  • 易用性(低成本)

  • 高可靠性(高容错性)

  • 高效性

  • 高扩展性

2、大数据的产业:

  • IT基础设施层:硬件、软件、网络等基础设施

  • 数据源层:大数据生态圈里的数据提供者

  • 数据管理层:数据抽取、转换、存储和管理等服务的各类企业或产品

  • 数据分析层:分布式计算、数据挖掘、统计分析

  • 数据平台层:数据分享平台、数据分析平台、数据租售平台

  • 数据应用层:行业应用

三、大数据与云计算、物联网、人工智能

(一)云计算

信息产业三大革命:个人计算机革命、互联网革命、云计算革命

云计算的应用,加速了信息产业规模化、专业化、精细化、自主化

  1. 概念:通过网络、以服务的方式,提供廉价的IT资源,是一种商业模式

  2. 特点:

    • 超大规模计算、高可靠性、安全性、动态扩展性------分布式存储、计算技术

    • 虚拟化、通用性、按需服务------虚拟化技术、多租户技术

    • 降低成本------商业模式

  3. 关键技术:

    • 虚拟化技术:抽象、隐藏、通用、在不同层次展现出不同面貌

    • 分布式存储技术:虚拟存储设备、可靠性、安全性、可扩展的系统结构

    • 分布式计算技术:共享计算资源、平衡计算负载

    • 多租户技术:共性资源共享、个性资源隔离

  4. 部署方式和服务模式:

    (1)部署方式:

    • 公有云:共享资源、任意用户访问、可拓展性

    • 私有云:安全性、私密性、专有资源(用户对数据掌握程度最大

    • 社区云/行业云:介于公有云和私有云之间,敏感行业

    • 混合云:以上三种中的任意混合,有固定的部署方案、权衡考虑

    (2)服务模式:

    • 软件即服务(SaaS):

      • 应用软件层:应用软件+平台软件层+基础设施层=SaaS

      • 使用基于云的Web应用程序

      • 租户需要管理软件产生的数据信息

    • 平台即服务(PaaS):

      • 平台软件层:中间件&运行库、数据库、操作系统+基础设施层=PaaS

      • 提供用于开发、测试和管理应用程序的云平台

    • 基础架构即服务(IaaS):

      • 基础设施层:服务器、虚拟机、计算机网络、机房基础设施=IaaS

      • 提供基本的计算基础结构、虚拟数据中心

    灵活性:

    IaaS>PaaS>SaaS

  5. 部署方式和服务模式与关键技术的联系:

    云计算的服务模式虚拟化技术作为主要支撑

    云计算的部署方式多租户技术作为主要支撑

(二)物联网

1、概念:利用局域网或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相联,实现信息化和远程管理控制

2、关键技术:

  • 识别和感知技术

    • 二维码:信息容量大、编码范围广、容错能力强、译码可靠性高、成本低易制作

    • RFID(射频识别):全天候、无接触、可同时实现多个物体自动识别

    • 传感器:微型化、数字化、智能化、网络化

      借助传感器实现对物理世界的感知

  • 网络与通信技术

    远距离无线连接的全球数据网络、互联网、移动通信网络、卫星通信网络

    近距离的蓝牙技术,红外技术、Zigbee技术、NFC、Wi-Fi

  • 数据挖掘与融合技术:云计算、云存储、云服务、大数据等

3、物联网、云计算、大数据的关系

(三)人工智能

1、概念:是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

2、关键技术:

  • 机器学习:

    • 机器学习的处理过程是一个闭环学习的过程

    • 在机器学习研究领域中,

      • 模型是学习算法在历史数据上通过训练而得到的结果

      • 模型是学习算法学得的由输入到输出的映射

      • 模型可以用于预测新的数据的未知属性

    • 机器学习的主要研究对象是---学习算法

  • 知识图谱:显示知识发展进程与结构关系的一系列各种不同的图形。

  • 自然语言处理(NLP):用计算机对自然语言的形、音、义等信息进行处理,实现人机间的信息交流。

    • 自然语言理解:计算机能够理解自然语言文本的意义

    • 自然语言生成:能以自然语言文本来表达给定的意图

    • 表现形式:机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别

  • 人机交互:研究系统与用户之间的交互关系的学科

  • 计算机视觉(CV):指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量的机器视觉,并进一步做图像处理,成为更适合人眼观察或传送给仪器检测的图像

  • 生物特征识别:指纹、掌纹、人脸......

  • AR/VR:

    • 虚拟现实(VR)

    • 增强现实(AR)

3、人工智能与大数据的关系

四、大数据技术

(一)数据采集与预处理

  1. 数据采集方式:离线采集、实时采集、互联网采集

  2. 数据采集要点:全面性、多维性、高效性

  3. 数据源:

    • 企业业务系统数据

    • 传感器

    • 日志文件

    • 互联网数据:借助网络爬虫,定向抓取

  4. 数据清洗:

    • 数据类型:残缺数据、错误数据、重复数据

    • 内容:

      • 一致性检查:超出正常范围、逻辑上不合理或者相互矛盾的数据。

      • 无效值和缺失值的处理:由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值

    • 方法:

      数据清洗方法

      不改变样本数量:变量删除、成对删除、估算

      增强数据的可用性:估算

      不改变原有数据:成对删除、估算

  5. ETL流程(抽取extract、转换transform、加载load)

(二)数据存储与管理

  1. 传统数据存储技术

    传统的数据存储和管理一般以结构化数据为主,文件系统数据库是主流技术

    数据仓库:面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策

    数据库与数据仓库的区别:数据库是面向事务、捕获数据(OLTP,联机事务处理);数据仓库面向主题、分析数据(OLAP,联机分析处理)。

  2. 大数据时代的存储技术(记住以下三种存储技术,不包括数据仓库)

    • 分布式文件系统

    • NoSQL:灵活的可扩展性、灵活的数据模型、与云计算紧密融合

      数据模型是类似列族、键/值、文档等非关系模型

      简单的数据模型、灵活的IT系统,较高的数据库性能和较低的数据库保持一致

    • NewSQL:具有对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等特性。

  3. 数据库构架的变革

(三)数据分析与处理

1、机器学习模型评价指标(简述机器学习模型评价指标的操作步骤)

2、大数据处理分析技术方法

  • 监督学习(Supervised Learning):指算法学习/训练的过程是在给定标签的数据的监督下完成的。

  • 无监督学习:指算法学习/训练的过程是在没有给定标签的数据的监督下完成的。

  • 半监督学习:半监督学习的数据集比较特殊,是部分有标签,部分没有标签的数据集。

采用半监督的方法可以让未标记的数据在标记样本少的情况下改善分类效果

(四)数据可视化

将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程

(五)数据安全与隐私保护

身份认证技术、访问控制技术、防火墙技术、入侵检测技术、加密技术

五、大数据典型行业应用

推荐系统

  • 搜索引擎:可以帮助我们查找内容,但只能解决明确的需求。

  • 推荐系统:大数据在互联网领域的典型应用,它可以通过分析用户的历史记录来了解用户的喜好,从而主动为用户推荐其感兴趣的信息,满足用户的个性化推荐需求

  • 长尾商品:

    虽然绝大多数商品都不热门,但这些不热门的商品总数量极其庞大,所累计的总销售额将是一个可观的数字,也许会超过热门商品所带来的销售额。

  • 热门推荐:主要缺陷在于推荐的范围有限,在一定时期内也相对固定无法实现长尾商品的推荐。

  • 个性化推荐:推荐系统通过发掘用户的行为记录,找到用户的个性化需求,发现用户潜在的消费倾向,将长尾商品准确地推荐给需要它的用户

推荐方法

  • 专家推荐:人工、专业人士

  • 基于统计的推荐:个性化较弱

  • 基于内容的推荐:内容相似

  • 协同过滤推荐:相似用户预测

  • 混合推荐:多种推荐算法

六、大数据安全与数据开放共享

(一)大数据安全

  • 传统数据安全主要面临静态安全问题

    • 信息泄露、篡改、灭失

  • 大数据安全主要面临动态安全问题

    • 称为网络攻击的目标、加大风险、被应用于攻击手段、称为高级可持续攻击的载体(如何理解这四个问题可以记一下)

(二)数据共享和数据开放

数据共享是指数据的拥有者将数据向其他机构和个人开放的行动

数据共享不等价于数据开放,这是因为数据共享是指小范围的使用和利用,而数据开放则是面向全社会和全体公众的开放

  • 20
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值