[期末救命-数据导论复习]

caca0516

已于 2023-11-30 15:41:08 修改

阅读量2k

点赞数 1

文章标签： memcached storm sql 大数据 sqoop

于 2023-11-30 15:40:20 首次发布

本文链接：https://blog.csdn.net/caca0516/article/details/134714000

版权

一.大数据的分类

按获取方式（3个）：结构化数据、非结构化数据、半结构化数据

按数字化（2个）：矢量数据、网格数据

按性质（4个）：定位、定性、定量、定时

按表现形式（2个）：数字数据、模拟数据

记录方式（5个）：记录方式：地图、表格、影像、磁带、纸带

大数据的定义：

定义1：指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产

定义2：指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的4V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。

大数据的特征

4v 数据体量巨大。价值密度低，数据类型繁多，处理速度快。

5v 数据量大，速度快，多样性，真实性，价值密度低。

二、大数据的重要性（7个）

1.推动大数据与实体经济深度融合

2.建设21世纪的数字丝绸之路

3.建设全国一体化的国家大数据中心

4.实施国家大数据战略加快建设数字中国

5.携手努力共谱合作新篇章

6.数化万物智在融合

7.创新发展数说未来

数据科学定义的两个方面

用数据的方法研究科学 2.用科学的方法研究数据

四、数据科学具有的三个基本要素理论、实践、精神

五、逻辑回归，主要解决二分类问题

六、大数据要解决的难题：大数据的清洗，管理和处理。

大数据存储的硬件设备，大数据存储的软件系统。

优秀的大数据分析算法和可视化算法

云计算

1.定义：云计算是一种通过互联网以服务的方式提供动态可伸缩的虚拟化资源的计算模式。云计算的资源是分布式架构并通过虚拟化技术实现动态易扩展，通过互联网提供的一种具有服务等级协议的服务。

2.云计算的概念模型（4个）：

用户的公共性、设备的多样性、商业模式的服务性、提供方式的灵活性

（云计算的服务特性体现在两个方面：简化和标准的服务接口、按需计费的商业

模式）

传统It获取方式缺点

1.初期成本高，周期长 2.后期需要自己维护，使用成本高 3.IT资源供应有限

云计算计算的优点

1.初期零成本，瞬时可获得2.后期免维护，使用成本低3.在供应量方面予取予求

公有云：提供面向社会大众、公共群体的云计算服务。

私有云：提供面向应用行业/组织内的云计算服务。

混合云：是把公有云和私有云进行整合，吸纳二者的优点，给企业带来真正意义上的云计算服务。混合云是未来云发展的方向，典型案例是12306火车票购票网站。

3.云计算的主要服务模式

（1）基础设施即服务（IaaS） 主要用户是系统管理员，他们具有专业知识能力，直接利用云提供的资源进行业务的部署或简单的开发

（2）平台即服务（PaaS）主要用户是开发人员。PaaS是把应用服务的运行和开发环境作为一种服务提供的商业模式

（3）软件即服务（SaaS）客户群体是普通用户。服务提供商提供给用户的服务是运行在云计算基础设施上的应用程序，用户只需要通过终端设备接入使用即可，简单方便，不需要用户进行软件开发，也无需管理底层资源

4.云计算应用

政务云：上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用，通过集约化建设、管理和运行，可以实现信息资源整合和政务资源共享，推动政务管理创新，加快向服务型政府转型

教育云：可以有效整合幼儿教育、中小学教育、高等教育以及继续教育等优质教育资源，逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标

中小企业云：能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统，大大降低企业信息化门槛，迅速提升企业信息化水平，增强企业市场竞争力

医疗云：可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服务共享，并形成一套全新的医疗健康服务系统，从而有效地提高医疗保健的质量

物联网

1.概念：物联网是新一代信息技术的重要组成部分，也是信息化时代的重要发展阶段，物联网就是物物相连的互联网。其中物联网的基础是互联网，以互联网的形式把物与物联系在一起，进行信息交换和通信，是互联网对象的扩展和延伸，即万物互联。

2. 物联网体系架构

应用层，处理层，网络层，感知层。

3.物联网中的关键技术包括识别和感知技术（二维码、RFID、传感器等）、网络与通信技术、数据挖掘与融合技术等

4.大数据与云计算、物联网的关系：

①云计算为大数据提供了技术基础，大数据为云计算提供了用武之地；

②物联网是大数据的重要数据来源，大数据技术为物联网数据分析提供支撑；

③云计算为物联网提供海量数据存储能力，物联网为云计算提供了广阔的应用空间。

人工智能

AI关键技术：机器学习、知识图谱、自然语言处理、人机交互、计算机视觉、生物特征识别、VR/AR。

机器学习:强调三个关键词：算法、经验、性能

大数据的发展趋势

1.数据的资源化 2.与云计算的深度结合 3.科学理论的突破

4.数据科学和数据联盟的成立 5.数据泄露泛滥 6.数据管理成为核心竞争力

7.数据质量是BI(商业智能)成功的关键 8.数据生态系统复合化程度加强

十一、传统数据安全

1.计算机病毒 2.黑客攻击 3.数据信息存储介质的损坏

大数据安全问题

1. 隐私和个人信息安全问题 2. 国家安全问题

数据安全能力从组织建设、人员能力、制度流程及技术工具4个维度展开。

①组织建设：涉及数据安全组织的架构建立、职责分配和沟通协作。

②人员能力：指执行数据安全工作人员的意识及专业能力。

③制度流程：指组织关键数据安全领域的制度规范和流程落地建设。

④技术工具：指通过技术手段和产品工具固化安全要求或自动化实现安全工作。

十二、数据孤岛问题

1.政府的数据孤岛问题

由于各政府部门建设数据库所采用的技术、平台及网络标准不统一，导致政府职能部门之间难以实现数据对接与共享

2.企业的数据孤岛问题

不同企业之间，属于不同的经营主体，有着各自的利益，彼此之间数据不共享，产生企业之间的数据孤岛，这种是比较普遍的情况。企业内部也往往会存在大量数据孤岛，这些数据孤岛的形成主要有两个方面的原因：以功能为标准的部门划分导致数据孤岛不同类型、不同版本的信息化管理系统导致数据孤岛

3.消除数据孤岛的重要意义

对于政府的意义：加强政府数据共享开放和大数据服务能力，促进跨领域、跨部门合作，推进数据信息交换，打破部门壁垒，遏制数据孤岛和重复建设，有助于提高行政效率，转变思维观念，推动传统的职能型政府转型为服务型智慧政府。政府数据共享的重要意义表现在以下两个方面：首先，有助于提升资源利用率。其次，有助于推动政府转型

对于企业的意义：

首先，打通企业内部的数据孤岛，实现所有系统数据互通共享，对建立企业自身的大数据平台和企业信息化建设都有重大意义。其次，打通企业之间的数据孤岛，实现不同企业的数据共享，有利于企业获得更好的经营发展能力。

4.数据共享案例

菜鸟物流、政府一站式平台——i厦门

5.政府数据开放的重要意义

1)政府开放数据有利于促进开放透明政府的形成

2)政府开放数据有利于创新创业和经济增长

3)政府开放数据有利于社会治理创新

6.数据权包括两个方面:数据主权，数据权利

数据主权的主体是国家，数据权利的主体是公民

7.大数据交易平台

数据交易的形式：大数据交易公司，数据交易所，API模式

交易平台的类型:综合数据服务平台，第三方数据交易平台

数据来源:1.政府公开数据 2.企业内部数据 3.数据供应方数据

4.网页爬虫数据

交易平台的产品类型1.API 2.数据包3.云服务4.解决方案

数据定制服务6.数据产品

十三、范式

1.范式的特点

（1）范式在一定程度内具有公认性；

（2）范式是一个由基本定律、理论、应用以及相关的仪器设备等构成的一个整体，它的存在给科学家提供了一个研究纲领；

（3）范式还为科学研究提供了可模仿的成功的先例。

范式的演化过程

2.范式的演化过程（4个）

第一范式：实验和观察科学。第二范式：模型推演和理论科学。

第三范式：仿真模拟和计算科学。第四范式：数据密集型科学。

在大数据时代，数据密集型科研范式的特点是“以数据为中心来思考、设计和实施科学研究，科学发现依赖于海量数据采集、存储、管理和分析处理的能力”

十四、传统的思维方式

世界变化的规律是确定的。
因为有确定性做保障，因此规律不仅是可以被认识的，而且可以用简单的公式或者语言描述清楚。
这些规律应该是放之四海而皆准的，可以应用到各种未知领域指导实践。

大数据思维方式

1.全样而非抽样谷歌流感趋势预测、商品比价网站

2.效率而非精确谷歌翻译

3.相关而非因果啤酒与尿布零售商Target的基于大数据的商品营销

吸烟有害身体健康的法律诉讼基于大数据的药品研发

4.以数据为中心基于大数据的谷歌广告、搜索引擎“点击模型”

大数据的简单算法比小数据的复杂算法更有效

我为人人，人人为我迪士尼手环、百度地图

（计算题）基本概念：支持度、置信度、提升度。

从“啤酒尿布”案例数据分析六步思维Apriori算法

步骤一，“构建问题”；步骤二，“回顾”；步骤三，“建模（选择变量）”

步骤四，“收集数据”；步骤五，“数据分析”；步骤六，“传达结果并持续分析”

相关性的单向性：啤酒与尿布”不等于“尿布与啤酒”

思维启示（4个）

不要只见树木，不见森林注重相关关系研究

深挖数据背后的含义数据分析不要停留于表面

十五、

推荐算法分类

基于人口统计学 2.基于内容 3.基于协同过滤 4.基于关联规则 5.基于效用

基于知识 7.组合方式

推荐系统目的（4个）

推荐用户需要的信息降低信息过载

提高站点的点击率/转化率加深对用户的了解，为用户提供定制化服务

基于内容的推荐方法优缺点

优点：

对用户兴趣可以很好地建模，通过对物品属性维度增加，获得更好的推荐精度；

由于过程简单解释性强，推荐的结果容易被人接受；

对于新物品来没有任何用户评分的也可以推荐给用户。

缺点：

物品的属性有限，很难有效得到更多数据；

物品相似度的衡量标准只考虑物品本身，有一定的片面性；

无法为新用户产生推荐，新用户没有喜好历史，自然无法获得他的profile，所以也就无法为他产生推荐了（需要用户的物品的历史数据，有冷启动问题）。

基于关联规则的推荐

在关联规则中用于度量规则质量的两个主要指标即为支持度和置信度。

组合方式的推荐

组合推荐经常被采用：研究和应用最多的是内容推荐和协同过滤推荐的组合。

在组合方式上，有研究人员提出了七种组合思路：
1）加权（Weight）：加权多种推荐技术结果。
2）变换（Switch）：根据问题背景和实际情况或要求决定变换采用不同的推荐技术。
3）混合（Mixed）：同时采用多种推荐技术给出多种推荐结果为用户提供参考。
4）特征组合（Feature combination）：组合来自不同推荐数据源的特征被另一种推荐算法所采用。
5）层叠（Cascade）：先用一种推荐技术产生一种粗糙的推荐结果，第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。
6）特征扩充（Feature augmentation）：一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。
7）元级别（Meta-level）：用一种推荐方法产生的模型作为另一种推荐方法的输入。

十六、决策树（画图、题目）

单位：信息熵

以2为底单位是bit 以e为底单位是nat

十七、数据采集和预处理

（1）数据采集的三大要点

全面性，多维性，高效性

（2）数据采集方法 1、系统日志采集 2、分布式消息订阅分发

3.ETL常用于数据仓库中的数据采集和预处理环节。4、网络数据采集

系统日志采集Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。 Flume运行的核心就是一个代理（Agent）把数据从数据源（Source）收集过来，再将收集到的数据送到指定的数据槽/目的地（Sink）。为了保证输送的过程一定成功，在送到目的地之前，会先缓存数据到管道（Channel），待数据真正到达目的地后，Flume再删除缓存的数据

框里是flume核心组件

网络爬虫是一个自动提取网页的程序（还有反爬机制）

网络爬虫的类型(4个)

通用网络爬虫聚焦网络爬虫增量式网络爬虫深层网络爬虫

（3）数据采集的数据源 1.传感器数据 2.互联网数据3.日志文件

4.企业业务系统数据

（4）图的遍历（深度和广度优先搜索）

（5）数据预处理的步骤 1.数据清洗2.数据集成3.数据规约4.数据变换

为什么要进行数据预处理？

杂乱性：数据缺乏统一的标准和定义；

重复性：数据库中存在多条完全相同的记录；

不完整性：系统设计中的不合理或者使用工程中造成的属性缺失；

存在噪声：数据收集过程中产生的随机错误。

因为原始数据往往是不完整的，含有噪声的以及不一致的，采用这些数据进行机器学习/数据挖掘往往得到的结果是不准确的。

（6）数据的预处理：数据归一化（计算题）

最大最小（线性）归一化

0均值标准化

中心化（又叫零均值化）

（7）数据规范化

1）最大—最小规范化：X* =（x-min）/（max-min），映射到 [0,1] 之间，若数据集中且某个数值太大，则规范化后各值都接近0，且相差不大；

2）Z-score(零-均值)规范化：X* =（x-mean）/ sigma ，目前用的最多的数据标准化方法；

3）小数定标规范化：X* =x /（10^k），通过移动属性值的小数位数，映射到 [-1,1] 之间，移动的小数位数取决于属性值绝对值的最大值

典型的kafka的架构包括的组件

话题（Topic）生产者(Produce) 服务代理（Broker）消费者（Consumer）

(9)数值概念层次树

五种主要构造方法如下：

Bin方法直方图方法聚类分析方法基于熵的离散化方法自然划分分段方法

数据脱敏的主要原则包括：（4个）

保持原有数据特征 2.保持数据之间的一致性
保持业务规则的关联性 4.多次脱敏之间的数据一致性

（11）数据脱敏的方法主要包括：（6个）

A. 数据替换 B.无效化 C. 随机化

D. 偏移和取整 E.掩码屏蔽 F.灵活编码

大数据对存储带来的挑战

1.容量问题 2.延迟问题 3.安全问题 4.成本问题

5.数据积累 6.灵活性 7.应用感知 8.针对小用户

大数据的存储方式

分布式系统包括：分布式文件系统、分布式键值系统

典型的NoSQL数据库包含：（4个）

键值数据库B.列式数据库C.文档数据库D.图形数据库

键值数据库

优点：扩展性好，灵活性好，大量写操作时性能高

缺点：无法存储结构化信息，条件查询效率较低

列式数据库一般应用于对应大量的字符串数据

优点：查找速度快，可扩展性强，容易进行分布式扩展，复杂性低

缺点：功能较少，大都不支持强事务一致性

图形数据库不是专门用来存储图形图像的，而是因为其用图状结构来维持其数据之间的关系，所以叫做图形数据库。

优点：灵活性高，支持复杂的图形算法，可用于构建复杂的关系图谱

缺点：复杂性高，只能支持一定的数据规模

文档数据库 用来管理文档

缺点：缺乏统一的查询语法

云计算是一种通过互联网以服务的方式提供动态可伸缩的虚拟化资源的计算模式。

云计算三种主要服务模式？

基础设施即服务（IaaS） →系统管理员

平台即服务（PaaS） →开发人员

软件即服务（SaaS）→普通用户

云存储的类型

1.个人云存储 2.私有云存储 3.公有云存储 4.混合云存储

云存储的优势

(1)存储管理可以实现自动化和智能化

(2)提高了存储效率

(3)云存储能够实现规模效应和弹性扩展，降低运营成本，避免资源浪费。

数据管理经历了人工管理、文件系统、数据库系统三个发展阶段。

数据库管理系统

优点1.数据结构化2.共享性高、冗余度低、易扩充3.数据独立性高

集群系统特点

（1）作为集群节点的工作站系统的处理性能越来越强大，更快的处理器和更高效的多CPU机器将大量进入市场。

（2）随着局域网上新的网络技术和新的通信协议的引入，集群节点间的通信能获得更高的带宽和更小的延迟。

（3）集群系统比传统的并行计算机更易于融合到已有的网络系统中去。

（4）集群系统上的开发工具更成熟。传统的并行计算机缺乏一个统一的标准，而集群不止解决这一问题，而且系统价格便宜并易于构建。

（5）集群系统的可扩展性良好

（6）性价比高。

集群文件系统分为多种类型，按照集群中数据分布的方式，

可分为共享存储型集群文件系统和分布式集群文件系统。

分布式与共享式是对立的，

所以分布式文件系统等价于非共享存储的集群文件系统。

二十、大数据处理分析

流计算 数据的价值随着时间的流逝而降低

流计算的处理流程一般包含三个阶段：

数据实时采集、数据实时计算、实时查询服务

传统的数据处理流程隐含了两个前提：

1.存储的数据是旧的。当查询数据时候，存储的静态数据是过去某一时刻的快照，这些数据在查询时可能已不具备时效性了。

2.需要用户主动发出查询来获取结果。

流处理系统与传统的数据处理系统有如下不同：

流处理系统处理的是实时的数据，

而传统的数据处理系统处理的是预先存储好的静态数据

2.用户通过流处理系统获取的是实时结果，

而通过传统的数据处理系统，获取的是过去某一时刻的结果

3.流处理系统无需用户主动发出查询，

实时查询服务可以主动将实时结果推送给用户

数据分析分为广义的数据分析和狭义的数据分析

广义的数据分析就包括狭义的数据分析和数据挖掘。

二十一、Hadoop生态系统

Hadoop的框架最核心的设计就是：HDFS和MapReduce。

HDFS为海量的数据提供了存储

MapReduce则为海量的数据提供了计算。

除了核心的HDFS和MapReduce以外，Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。

（习题4）

Hadoop有两个核心模块，分布式存储模块HDFS和分布式计算模块MapReduce

HDFS是Hadoop的分布式文件存储系统，它的主要目的是支持以流的形式访问写入的大型文件。

分布式计算框架MapReduce

用MapReduce来处理的前提条件：待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。

MapReduce的不足之处：

表达能力有限 ② 磁盘IO开销大 ③ 延迟高。

Spark

高效性易用性通用性兼容性

Spark的计算基于Hadoop存储模块HDFS

Spark的计算比Hadoop计算模块MapReduce速度快、功能多

二十二、机器学习分类—有监督和在无监督学习

有监督学习的两种主要类型是分类和回归：

在分类中，机器被训练后可以将一组未分类的事务进行分类

在回归中，机器使用先前的（标记的）数据来预测未来。

在无监督学习分为聚类和降维

聚类用于根据属性和行为对象进行分组。这与分类不同，因为这些组不是你提供的。（PPT11的计算题）

降维通过找到共同点来减少数据集的变量。

分类的训练阶段

训练阶段的目的是描述预先定义的数据类或概念集的分类模型。

回归分析的目的是找到一个联系输入变量和输出变量的最优模型。

回归分析常用的三种分类方法：（PPT11的计算题）

1.自变量的个数2.因变量的类型3.回归线的形状

在模型中，因变量是连续型的，

自变量可以是连续型或离散型的，回归线是线性的。

线性回归可以分为：一元线性回归、多元线性回归

二十三、数据可视化

数据可视化发展阶段：科学可视化、信息可视化、数据可视化

图表选择（ppt12）

图表选择方式通过数据关系的四个方面来区分：

对比、构成、分布、关联

可视化工具

入门级工具 2.信息图表工具

3.地图工具4.时间线工具5.高级分析工具

信息图表是信息、数据、知识等的视觉化表达

可视化典型案例

全球黑客活动

互联网地图

编程语言之间的影响力关系图

世界国家健康与财富之间的关系

3D可视化互联网地图APP

caca0516

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
[期末救命-数据导论复习]

期末复习，数据导论，速成知识点
复制链接

扫一扫

[期末救命-数据导论复习]

“相关推荐”对你有帮助么？