大数据工程专业技术证书考试-数据分析与应用

潘达斯奈基~

已于 2022-09-05 22:41:43 修改

阅读量6.1k

点赞数 13

文章标签：大数据

于 2022-08-30 07:21:52 首次发布

本文链接：https://blog.csdn.net/m0_57280180/article/details/126590308

版权

大数据职称考试知识大纲–数据分析与应用（初级）

第一部分基础知识模块

一、大数据法律法规、相关标准及职业道德

1.1 法律法规

1.1.1 《中华人民共和国民法典》中华人民共和国主席令第四十五号

（1）、了解隐私权和个人信息保护有关内容

第一千零三十二条　自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。

隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。

第一千零三十三条　除法律另有规定或者权利人明确同意外，任何组织或者个人不得实施下列行为：
- （一）以电话、短信、即时通讯工具、电子邮件、传单等方式侵扰他人的私人生活安宁；
- （二）进入、拍摄、窥视他人的住宅、宾馆房间等私密空间；
- （三）拍摄、窥视、窃听、公开他人的私密活动；
- （四）拍摄、窥视他人身体的私密部位；
- （五）处理他人的私密信息；
- （六）以其他方式侵害他人的隐私权。
第一千零三十四条　自然人的个人信息受法律保护。

个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息，包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。

个人信息中的私密信息，适用有关隐私权的规定；没有规定的，适用有关个人信息保护的规定。
第一千零三十五条　处理个人信息的，应当遵循合法、正当、必要原则，不得过度处理，并符合下列条件：
- （一）征得该自然人或者其监护人同意，但是法律、行政法规另有规定的除外；
- （二）公开处理信息的规则；
- （三）明示处理信息的目的、方式和范围；
- （四）不违反法律、行政法规的规定和双方的约定。
个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开等。
第一千零三十六条　处理个人信息，有下列情形之一的，行为人不承担民事责任：
- （一）在该自然人或者其监护人同意的范围内合理实施的行为；
- （二）合理处理该自然人自行公开的或者其他已经合法公开的信息，但是该自然人明确拒绝或者处理该信息侵害其重大利益的除外；
- （三）为维护公共利益或者该自然人合法权益，合理实施的其他行为。
第一千零三十七条　自然人可以依法向信息处理者查阅或者复制其个人信息；发现信息有错误的，有权提出异议并请求及时采取更正等必要措施。

自然人发现信息处理者违反法律、行政法规的规定或者双方的约定处理其个人信息的，有权请求信息处理者及时删除。

第一千零三十八条　信息处理者不得泄露或者篡改其收集、存储的个人信息；未经自然人同意，不得向他人非法提供其个人信息，但是经过加工无法识别特定个人且不能复原的除外。

信息处理者应当采取技术措施和其他必要措施，确保其收集、存储的个人信息安全，防止信息泄露、篡改、丢失；发生或者可能发生个人信息泄露、篡改、丢失的，应当及时采取补救措施，按照规定告知自然人并向有关主管部门报告。
第一千零三十九条　国家机关、承担行政职能的法定机构及其工作人员对于履行职责过程中知悉的自然人的隐私和个人信息，应当予以保密，不得泄露或者向他人非法提供。

1.1.2 《中华人民共和国数据安全法》中华人民共和国主席令第八十四号

（1）了解数据安全制度、数据安全保护义务、政务数据安全与开放等相关内容

数据安全制度：

国家建立数据分类分级保护制度，根据数据在经济社会发展中的重要程度，以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用，对国家安全、公共利益或者个人、组织合法权益造成的危害程度，对数据实行分类分级保护。
数据安全保护义务：

开展数据处理活动应当按照法律、法规的规定，建立健全全流程数据安全管理制度，组织开展数据安全教育培训，采取相应的技术措施和其他必要措施，保障数据安全。利用互联网等信息网络开展数据处理活动，应当在网络安全等级保护制度的基础上，履行上述数据安全保护义务。
政务数据安全与开放：

国家机关应当依照法律、行政法规的规定，建立健全数据安全管理制度，落实数据安全保护责任，保障政务服务的安全。国家机关应当遵循公平、公正、便民的原则，按照规定及时、准确地公开政务数据，依法不予以公开的除外。

1.1.3 《中华人民共和国网络安全法》中华人民共和国主席令第五十三号

（1）了解数据分类、重要数据备份和加密等措施

？？？？？？

1.1.4 《中华人民共和国电子签名法（2019 版）》中华人民共和国主席令第二十九号

（1）了解电子签名、数据电文基本概念

电子签名：

数据电文中以电子形式所含、所附用于识别签名人身份并表明签名人认可其中内容的数据。
数据电文：

指以电子、光学、磁或者类似手段生成、发送、接收或者存储的信息。

1.1.5 《中华人民共和国密码法》中华人民共和国主席令第三十五号

（1）了解核心密码、普通密码、商用密码之间的区别

核心密码、普通密码属于国家机密。核心密码、普通密码用于保护国家秘密信息，核心密码保护的信息的最高级别是绝密级，普通密码保护信息的最高级别是机密级。商用密码用于保护不属于国家秘密的信息

1.2 相关标准

1.2.1 GB/T 35295-2017 信息技术大数据术语

GB/T 35295-2017标准链接：http://c.gb688.cn/bzgk/gb/showGb?type=online&hcno=8B5E9AC58EDB0B0E6434A7A06A0093D1

（1）了解本标准的范围、术语和定义，以及密切相关的通用术语。

范围：

界定了信息技术大数据领域中的常用术语和定义
本标准适用于大数据领域的科研、教学和应用

大数据：具有体量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。

大数据特征四个特征：

体量 volume：构成大数据的数据集的规模
速度 velocity：单位时间的数据流量
多样性 variety：数据可能来自多个数据仓库、数据领域或者多种数据类型
多变性 variability：大数据其他特征，即体量、速度、多样性等特征都处于多变状态

相关术语

数据生存周期 data lifecycle：将原始数据转化为可用于行动的知识的一组过程

（1）了解本标准的范围、术语和定义，了解大数据参考架构的目的、目标，了解大数据参考架构及其各组成部分

大数据参考体系结构 big data reference architecture

一种用作工具以便于对大数据内在的要求、设计结构和运行进行开放性探讨的高层概念模型。

体系一般包括：系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据消费者五大逻辑功能构件。
系统协调者 system orchestrator

定义所需的数据应用活动并将它们整合到可运行的垂直系统中。

Ps：系统协调者可以是人、软件或者这两者

系统协调者一般包括：业务领导者、咨询师、数据科学家、信息体系结构设计师、软件体系结构设计师、安全体系结构设计师、个人信息保护体系结构设计师和网络体系结构设计师
数据提供者 data provider

将新的数据或者信息引入到大数据系统

Ps：数据提供者一般包括：企业、公共机构、科学家、调研人员、从事数据搜索的工程师、网络应用软件、网络运营商和末端用户
大数据应用提供者 big data application provider

执行数据生存周期操作，以满足系统协调者定义的需求以及安全和隐私保护需求

大数据应用提供者一般包括：应用领域专家、平台领域专家、咨询师
大数据框架提供者 big data framework provider

它建立一种计算框架，在此框架中执行转换应用，同时保护数据完整性和隐私

一般包括：内嵌数据集集群、数据中心和云提供者
大数据生存周期模型 lifecycle model for big data

用于描述大数据的“数据-信息-知识-价值”生存周期和指导大数据相关活动的模型，这些活动主要由收集、准备、分析和行动等阶段覆盖
- 收集阶段：采集原始数据并按原来数据形式存储
- 准备阶段：将原始数据转化为干净的、有组织的信息
- 分析阶段：利用有组织的信息生产合成的知识
- 行动阶段：运用合成的知识为组织生成价值

水平扩展：将集成的一群个体资源作为一个单系统使用的过程；

垂直扩展：为提高性能而提高处理速度、存储和内存等系统参数；

大数据生命周期模型：用于描述大数据的”数据-信息-知识-价值”生存周期和指导大数据相关活动的模型，这些活动由收集、准备、分析、行动等阶段覆盖

1.2.2 GB/T 35589-2017 信息技术大数据技术参考模型

GB/T 35589-2017 标准链接

（1）了解本标准的范围、术语和定义，了解大数据参考架构的目的、目标，了解大数据参考架构及其各组成部分

范围：

本标准描述了大数据的参考架构，包括角色、活动、和功能组件以及它们之间的关系

本标准适用于对大数据复杂操作的理解，可为大数据系列标准的制定提供基础

1.2.3 GB/T 37973-2019 信息安全技术大数据安全管理指南

GB/T 37973-2019 标准链接：

（1）了解本标准的范围、术语和定义，了解大数据安全需求、大数据分类分级、大数据活动及安全要求、大数据安全风险评估等方面的内容

大数据安全需求：保密性、完整性、可用性、其他需求
数据分类分级：
- 原则：科学性、稳定性、实用性、扩展性
- 流程：
- 方法：可按照数据主体、主题、业务等不同属性进行分类。参考GB/T 7027-2002第六章
大数据活动及安全要求
- 主要活动：数据采集、数据存储、数据处理、数据分发、数据删除
大数据安全风险评估：资产识别、威胁识别、脆弱性识别、已有安全措施确认、风险分析

1.3 职业道德

掌握专业技术人员职业道德的基本要求

1.作为道德原则的集体主义中的“集体”—社会整体

2.健全民主监督，要坚持以党内民主带动人民民主，进一步健全民主制度，延伸权力监督，不断扩大公民有序的政治参与。

3.职业道德信念是职业道德认识和职业道德情感的统一。

4.为人民服务是职业道德的根本，是社会主义道德的显著标志和本质特点。

5.职业纪律是指从事不同的单位、部门要求从业人员必须遵守的带有强制性的条例、章程、制度和规定

6.职业工作者要做到敬业，首先要树立正确的职业观，无论从事什么职业，都是社会的分工不同，无贵贱之分。

7.加强职业道德是市场经济道德文化建设的统一原则。

8.知识分子是科学文化知识的创造者和传播者，也是思想建设的重要力量。

9.建立和谐文化的核心问题是培育人的和谐文化精神。

10.市场经济的一大优势就在于通过市场、通过竞争能够实现对企业的优胜劣汰

11.加强社会主义荣辱观教育，是当前思想道德建设的首要任务。

12.职业道德的最基本要求是奉献社会

13.积极参加职业实践是职业道德修养的根本途径。

二、计算机基础知识

2.1 面向对象技术

2.1.1 了解面向对象的发展历史，为什么引入面向对象

（1）面向对象的发展历史

雏形阶段：

20世纪60年代挪威计算中心发布的simula语言，首次引入了类的概念和继承机制，该语言的诞生是面向对象发展历史上的第一个里程碑。

70年代CLU、并发Pascal、Ada和Modula-2等语言对抽象数据类型理论的发展起到重要作用（支持数据和操作封装）。
犹他大学的博士生Alan Kay设计了一个实验性的语言Flex,该语言从Simula 67中借鉴了许多概念，如类、对象和继承等。

1972年Palo Alno研究中心（PARC）发布了Smalltalk 72,其中正式使用了面向对象这个术语。Smalltalk的问世标志着面向对象程序设计方法的正式形成，但是这个时期的Smalltalk语言还不够完善。

完善阶段：

PARC先后发布了Smalltalk 72，76和78等版本，直至1981年推出该语言完善的版本Smalltalk 80。Small talk 80的问世被认为是面向对象语言发展史上最重要的里程碑。迄今绝大多数面向对象的基本概念及其支持机制在Small talk 80中都已具备。他是第一个完善的、能够实际应用的面向对象语言。但是随后的Small talk的应用并不广泛。

繁荣阶段：

从20世纪80年代中期到90年代，是面向对象语言走向繁荣的阶段。面向对象方法也从编程发展到设计、分析，进而发展到整个软件生命周期。

（2）为什么引入面向对象

面向对象是为了解决系统的可维护性，可扩展性，可重用性。

然而人们追求的系统可维护性，可扩展性，可重用性又是怎么在面向对象中体现出来的呢？

首先看看面向对象的三大特征：

封装：找到变化并且把它封装起来，你就可以在不影响其它部分的情况下修改或扩展被封装的变化部分，这是所有设计模式的基础，就是封装变化，因此封装的作用，就解决了程序的可扩展性。
继承：子类继承父类，可以继承父类的方法及属性，实现了多态以及代码的重用，因此也解决了系统的重用性和扩展性。但是继承破坏了封装，因为他是对子类开放的，修改父类会导致所有子类的改变，因此继承一定程度上又破坏了系统的可扩展性，所以继承需要慎用。只有明确的IS-A关系才能使用，同时继承在在程序开发过程中重构得到的，而不是程序设计之初就使用继承，很多面向对象开发者滥用继承，结果造成后期的代码解决不了需求的变化了。因此优先使用组合，而不是继承，是面向对象开发中一个重要的经验。
多态：接口的多种不同的实现方式即为多态。接口是对行为的抽象，刚才在封装提到，找到变化部分并封装起来，但是封装起来后，怎么适应接下来的变化？这正是接口的作用，接口的主要目的是为不相关的类提供通用的处理服务，我们可以想象一下。比如鸟会飞，但是超人也会飞，通过飞这个接口，我们可以让鸟和超人，都实现这个接口，这就实现了系统的可维护性，可扩展性。

2.1.2 掌握面向对象与非面向对象编程的优缺点

面向过程
- 优点：性能比面向对象高，因为类调用时需要实例化，开销比较大，比较消耗资源，比如单片机、嵌入式开发、Linux/Unix等一般采用面向过程开发，性能是最重要的因素。
- 缺点：没有面向对象易维护、易复用、易扩展
面向对象
- 优点：易维护、易复用、易扩展，由于面向对象有封装、继承、多态性的特性，可以设计出低耦合的系统，使系统更加灵活、更加易于维护
- 缺点：性能比面向过程低

2.1.3 掌握抽象的 5 个层次，抽象形式

面向对象领域，抽象的主要作用是划分类别，抽象是面向对象领域里面发现类的主要方法

在这里插入图片描述

抽象的五个层次：①. 变量和函数 ②. 接口 ③. 消息传递 ④. 对象集单元 ⑤. 设计模式
抽象形式：

2.1.4 了解类和方法

类是面向对象语言中最常用的元素，在一个类文件中允许编写多个方法，用户最熟悉的方法是 Main 方法.

Ps：方法是对象的行为

构造方法

java中默认的有一个构造方法，构造方法的使用与否全看你自己的操作需求，但是一旦你创建了构造方法，java虚拟机将不再采用默认的无参的构造方法，而使用你定义的构造方法。
继承和替换

继承*：子类所具有的数据和行为总是作为与其相关的父类的属性的扩展(即更大的集合)。子类具有父类所有的属性及其他属性。继承总是可以传递的，这样类就可以继承各个级别的父类特征。
面向对象的设计原则
- 开放-封闭原则
- 单一职责原则
- 依赖倒转原则
- 迪米特法则（也称为最小知识原则）
- 接口隔离原则
- 合成/聚合复用原则
- 里氏代换原则
面向对象设计模式
- 创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。
- 结构型模式，共七种：适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。
- 行为型模式，共十一种：策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。

大数据工程专业技术证书考试-数据分析与应用

大数据职称考试知识大纲–数据分析与应用（初级）

第一部分 基础知识模块

一、大数据法律法规、相关标准及职业道德

1.1 法律法规

1.1.1 《中华人民共和国民法典》中华人民共和国主席令第四十五号

1.1.2 《中华人民共和国数据安全法》中华人民共和国主席令第八十四号

1.1.3 《中华人民共和国网络安全法》中华人民共和国主席令第五十三号

1.1.4 《中华人民共和国电子签名法（2019 版）》中华人民共和国主席令第二十 九号

1.1.5 《中华人民共和国密码法》中华人民共和国主席令第三十五号

1.2 相关标准

1.2.1 GB/T 35295-2017 信息技术 大数据 术语

1.2.2 GB/T 35589-2017 信息技术 大数据 技术参考模型

1.2.3 GB/T 37973-2019 信息安全技术 大数据安全管理指南

1.3 职业道德

掌握专业技术人员职业道德的基本要求

二、计算机基础知识

2.1 面向对象技术

2.1.1 了解面向对象的发展历史，为什么引入面向对象

2.1.2 掌握面向对象与非面向对象编程的优缺点

2.1.3 掌握抽象的 5 个层次，抽象形式

2.1.4 了解类和方法

2.1.5 了解消息、实例和初始化

2.2 数据结构和算法

2.2.1 掌握程序性能分析的概念和方法，包括时间复杂性与空间复杂性分析

2.2.2 掌握线性表的概念，掌握堆栈、队列、跳表和散列的描述方法与应用

2.2.3 了解树的描述方法与应用

树的应用场景

2.2.4 了解图的描述方法与应用

2.3 操作系统

2.3.1 掌握操作系统的概念和操作系统结构。

2.3.2 掌握操作系统的进程管理，包括进程概念、进程调度、同步及死锁处理。

2.3.3 了解内存管理，包括内存管理策略和虚拟内存管理。

2.3.4 了解存储管理，包括文件系统、文件系统实现、大容量存储结构和 I/O 系统。

2.3.5 了解系统保护与安全。

2.4 计算机网络

2.4.1 了解计算机网络在信息时代的核心作用以及计算机网络的发展历史；理解计算机网络的分类，网络标准化，网络参考模型，网络体系结构

2.4.2 掌握物理层的基本概念，理解信道极限容量的概念以及信道最大传输速 率的公式，模拟传输和数字化传输的物理层标准

2.4.3 掌握数据链路层的基本概念，理解停等协议和连续 ARQ 协议，滑动窗口 协议，检错和纠错机制

2.4.4 掌握介质访问控制子层的基本概念，理解动态多路访问控制协议，以太网，无线局域网，数据链路层的交换技术

2.4.5 了解网络层的基本概念，了解路由协议，拥塞控制算法，服务质量，网 络互连，IP 协议，子网掩码

2.4.6 了解传输层的基本概念，了解传输层路由协议，TCP，UDP，拥塞控制算 法。 7、了解应用层的基本概念，了解 DNS，邮件系统，www，流音频与视频

三、信息化基础知识

3.1 电子政务

3.1.1 电子政务的概念、内容和技术形式

3.2.2 中国政府信息化的策略和历程

3.2.3 电子政务应用模式

3.2 电子商务

3.2.1 电子商务的概念及基本特征

3.2.2 电子商务的类型

3.3 新一代信息技术

3.3.1 物联网

3.3.2 云计算

3.3.3 移动互联网

3.3.4 人工智能

3.3.5 区块链

3.3.6 量子技术

四、大数据安全

4.1 网络安全

4.1.1 熟悉网络安全的一些基本概念、基本属性及网络安全模型等

4.1.2 了解网络安全体系的安全服务、安全机制、安全服务配置和安全管理等

4.1.3 熟悉各种网络安全技术的概念，了解物理安全、网络安全设备、系统安 全、应用安全的基本知识

4.1.4了解网络安全运维与保障的框架、基本原理等知识

4.2 数据安全

4.2.1 了解大数据安全管理及安全需求的原则，掌握数据安全分类、定级的原则

4.2.2 了解数据采集、存储、处理、分发、删除等活动的概念，了解相关安全 技术与安全要求

4.2.3 熟悉云存储安全体系、数据生命周期中的安全风险、保障云存储安全的 原则及云计算边界安全相关的概念

4.2.4 了解大数据安全与防护保障机制。

第二部分 专业知识

五、数据库系统（SQL+NoSQL)

5.1 掌握关系模型概念和 SQL 语言

5.2 掌握关系数据库设计方法

5.3 了解关系数据库事务概念和事务调度方法

5.4 了解数据库并发控制技术

5.5了解非关系数据库背景、特点和分类

六、数据仓库

6.1 了解数据挖掘的定义、功能、常用方法

6.2 了解数据仓库的产生与发展，掌握数据仓库的定义

6.3 了解数据仓库与数据挖掘的联系与区别

6.4 了解常用数据挖掘工具

第一部分基础知识模块

1.1.4 《中华人民共和国电子签名法（2019 版）》中华人民共和国主席令第二十九号

1.2.1 GB/T 35295-2017 信息技术大数据术语

1.2.2 GB/T 35589-2017 信息技术大数据技术参考模型

1.2.3 GB/T 37973-2019 信息安全技术大数据安全管理指南

2.4.2 掌握物理层的基本概念，理解信道极限容量的概念以及信道最大传输速率的公式，模拟传输和数字化传输的物理层标准

2.4.3 掌握数据链路层的基本概念，理解停等协议和连续 ARQ 协议，滑动窗口协议，检错和纠错机制

2.4.5 了解网络层的基本概念，了解路由协议，拥塞控制算法，服务质量，网络互连，IP 协议，子网掩码

2.4.6 了解传输层的基本概念，了解传输层路由协议，TCP，UDP，拥塞控制算法。 7、了解应用层的基本概念，了解 DNS，邮件系统，www，流音频与视频

4.1.3 熟悉各种网络安全技术的概念，了解物理安全、网络安全设备、系统安全、应用安全的基本知识

4.2.2 了解数据采集、存储、处理、分发、删除等活动的概念，了解相关安全技术与安全要求

4.2.3 熟悉云存储安全体系、数据生命周期中的安全风险、保障云存储安全的原则及云计算边界安全相关的概念

第二部分专业知识

6.8 了解数据清洗、数据集成和变换、数据归约的概念与方法，具有应用上述方法进行数据清洗的能力

7.1.1 了解常见可视化图形（散点图、折线图、饼图、环图、柱状图）的概念，具有初步的可视化图形展示数据的能力。

7.2.6 了解数据采集与预处理过程，掌握数据采集、数据清洗、数据转换、数据脱敏的方法

7.2.7 了解大数据处理环节的主要思想：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（包括大数据检索、大数据可视化、大数据应用、大数据安全等）

8.1 了解常用的大数据分析模型，例如行为事件分析模型、点击分析模型、用户行为路径分析模型、用户分群分析模型等，具有应用大数据技术参与大数据分析的能力

9.1.4 掌握随机变量分布函数的概念，掌握连续型随机变量的密度函数和离散型随机变量的分布列。

9.1.5 掌握常见分布（两点分布、二项分布、泊松分布、均匀分布、正态分布、指数分布）及其简单性质。

9.1.7 理解统计量的概念，理解样本均值、样本方差（标准差）的概念，并会简单计算。

9.2.2 掌握 Logistic 回归算法原理与特点，能够使用 Logistic 回归进行数据的分类建模与参数解释。

9.2.10 了解生成式半监督学习方法、半监督 SVM、图半监督学习方法的思想与原理。

9.3.3 掌握循环神经网络（RNN）原理与基本概念，了解几种常见的模型，如长短期记忆网络 LSTM、GRU。