阿里云大数据ACA及ACP复习题（1~20)

最新推荐文章于 2024-01-14 20:09:27 发布

周周的奇妙编程

最新推荐文章于 2024-01-14 20:09:27 发布

阅读量914

点赞数 2

分类专栏：阿里云云计算ACA笔记文章标签：阿里云大数据云计算

本文链接：https://blog.csdn.net/qq_44373268/article/details/132748045

版权

阿里云云计算ACA笔记专栏收录该内容

16 篇文章 3 订阅

订阅专栏

1.（多选）MaxCompute在每一个项目空间在创建时，会自动创建admin的角色，并且为该角色授予了确定的权限。以下权限中不属于admin的有哪些（ABD）。
A:设定项目空间的安全配置
B:修改项目空间的鉴权模型
C:将admin权限指派给其他用户
D:以package方式授权
E:对其他用户或角色进行授权

解析：MaxCompute创建项目成功后，除了项目所有者（Project Owner）外还内置了两个默认的管理角色Super_Administrator和Admin，Admin角色不具有设定项目空间的安全配置的权限，Admin角色不能修改项目空间的鉴权模型，不能Admin权限指派给其他用户。

2.（多选）MaxCompute中支持多种表连接 (join) 的方式，包括哪些(CD)。
A:semi outer join
B:anti outer join
C:full outer join
D:mapjoin

解析：semi outer和anti outer支持left join。full outer join和map join是dataworks支持的join方式。

3.（多选）Google在大数据发展的过程中做出了非常大的贡献，其中有三篇非常具有影响力的论文，论述了文件系统、非关系型数据库、并行计算框架，分别为（ABC）。
A:GFS
B:BigTable
C:MapReduce
D:HDFS
E:Hbase
F:Spark

解析：google 分别在 2003 年、2004 年以及 2006 年发布了大数据发展影响重大的三篇论文：1、The Google File System，简称 GFS；2、MapReduce；3、Bigtable。分别论述文件系统、非关系型数据库、并行计算框架。

4.阿里云机器学习PAI支持多种常见的算法，以下属于分类算法的有(AB )。
A:KNN
B:RandomForest
C:K-Means
D:DBSCAN

解析：KNN是近邻分类算法，是通过测量不同特征值之间的距离进行分类的算法；RandomForest算法是随机森林算法，可以用作分类算法；K-Means算法是k均值聚类算法，用作聚类分析算法；DBSCAN算法是密度聚类算法，用作聚类分析。

5.采用分布式的方式存储数据时，要考虑数据复制时一致性的问题，关于一致性如何保证可以采取多种基本原则和设计理念，不包括哪项。（A）
A:LRU
B:CAP
C:ACID
D:BASE

解析：数据复制与一致性基本原则和设计理念包括：CAP、ACID、BASE等，不包括LRU。

6.大数据计算服务MaxCompute是阿里巴巴自主研发的海量数据处理平台，主要服务于批量结构化数据的存储和计算。以下不适合使用大数据计算服务实现的场景是?（A）
A:订单办理
B:数据仓库
C:社交网络分析
D:用户画像

解析：MaxCompute是阿里云大数据离线计算服务组件，适合批量数据开发调度，订单办理属于实时业务，不适合有maxcompute完成。同时maxcompute适用于日志分析，用户画像，数据化运营，数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘

7.使用odpscmd连接到MaxCompute中的某个project后,执行什么命令可以查看表table_b占用空间的大小。（A）
A:desc table_b;
B:size table_b;
C:select size from table_b;
D:show table table_b;

解析：desc是查看表或者视图信息

8.MaxCompute项目空间A设置了项目空间保护: set ProjectProtection=true;并且将项目空间B设置为可信空间: add trustedproject B;无其他任何设置。以下说法中正确的是哪项？（A）
A:项目空间A中的数据可以流至项目空间B
B:项目空间B中的数据可以流至项目空间A
C:项目空间A和项目空间B中的数据可双向流动
D:项目空间B中的数据只可以流至项目空间A

解析：如果当前项目空间处于受保护状态，如果将数据流出的目标空间设置为当前空间的TrustedProject，那么目标项目空间的数据流向将不会被视为触犯ProjectProtection规则。如果多个项目空间之间两两互相设置为TrustedProject，那么这些项目空间就形成了一个TrustedProject Group，数据可以在这个Project Group内流动，但禁止流出到Project Group之外。

9.MaxCompute SQL采用的是类似于SQL的语法，适用于海量数据，实时性要求不高的场合。关于MaxCompute SQL,以下说法正确的包括哪些选项？（BCD）
A:MaxCompute可以等价成一个数据库，可以完成事务及回滚的功能
B:MaxCompute的每个作业准备以及提交都需要花费较长时间，因此不适用对于要求响应时间较短的准实时查询
C:MaxCompute SQL支持多种操作，如含join, where, order by, group by等
D:MaxCompute SQL包括的数据类型有BigInt, Float, Double, String, Date Time, Boolean

解析：MaxCompute并不具备数据库的常见特性，如事务、回滚等。

10.MaxCompute可通过ACL授权来协调多用户操作同一个项目，下列选项中，可以进行ACL授权的对象包括哪些？(ABC)
A:Project
B:Table
C:Resource
D:Procedure

解析：ACL授权对象包括：project table function resource instance

11.(多选题)MaxCompute可以通过ACL授权来协调多用户操作同一个项目，进行授权时需要包括以下 (ABC) 因素。
A:主体
B:客体
C:操作
D:原则
E:限制条件

**解析：**ACL授权一般涉及到三个要素，即主体（Subject，可以是用户也可以是角色）、客体（Object）和操作（Action）。

12.(多选题)MaxCompute是用于数据分析场景的企业级SaaS模式的云数据仓库，以下选项中哪些连接工具能连接MaxCompute? （ABD）
A:MaxCompute控制台的查询编辑器
B:使用客户端(Odpscmd)连接
C:Dbeaver
D:MaxCompute Studio

**解析：**https://help.aliyun.com/document_detail/252783.html 查询编辑器（MaxCompute控制台）、使用客户端（odpscmd）连接、DataWorks、MaxCompute Studio

13.Apache Spark核心组件包含：Spark Streaming、Spark SQL、Spark Core、GraphX、MLlib,下列哪个选项是对MLib组件的描述？(D)
A:提供流计算组件
B:是一个用来处理结构化数据的Spark组件
C:基于内存多语言执行的核心引擎
D:Spark机器学习库

**解析：**Spark的MLlib提供了较丰富的机器学习库，包括分类、回归、协同过滤、聚合，同时提供了模型选择、自动调参和交叉验证等工具来提高生产力。MLlib主要支持非深度学习的算法模块 https://help.aliyun.com/document_detail/441938.html

14.在MapReduce处理过程中，每次计算都要从磁盘读取数据完成计算后又写入磁盘。这体现了MapReduce的哪个缺点？（B）
A:不擅长实时计算
B:磁盘IO开销大
C:延迟高
D:中间结果多

**解析：**MapReduce的缺点： 1、无法在毫秒或秒级内返回结果； 2、输入数据集是动态的，不能动态变化； 3、每次作业后输出结果都会写入磁盘、会造成大量磁盘IO，导致性能低下。

15.分类算法是把每一条记录归到对应的类别之中，以下哪个不属于分类算法应用的场景?（D）
A:分析用户是否会购买电脑
B:分析用户是否会点击弹出的广告
C:分析收到的邮件是否为垃圾邮件
D:根据新输入父母的身高来分析其孩子的身高

**解析：**根据新输入父母的身高来分析其孩子的身高，不属于分类算法

16.下列数据库属于图数据库的是（B）。
A:Redis
B:GraphDB
C:MongoDB
D:Cassandra

**解析：**图数据库（Graph Database，简称GDB）是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。 https://help.aliyun.com/document_detail/102799.html?spm=a2c4g.194181.0.i4 云数据库MongoDB版、云数据库Redis版、云数据库Cassandra

17.存储数据的结构可以分为:结构化、非结构化、半结构化。下列选项中，属于非结构化数据的是?（D）。
A:JSON文档
B:XML文档
C:日志文件
D:图片

**解析：**非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等。

18.在《大数据时代》一书中，维克托·迈尔-舍恩伯格和肯尼斯可耶提出大数据的“4V特征。“4V特征包含（ACDE）。
A:Volume规模性
B:Vitality动态性
C:Velocity高速性
D:Variety多样性
E:Value价值性

**解析：**大数据的特征，由维克托迈尔-舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出，大数据的4V特征：规模性（Volume）、高速性（Velocity）、多样性（Variety）、价值性（Value）。

19.随着大数据时代的发展，Hadoop生态圈组件越来越丰富。关于Hadoop组件HDFS是（C）。
A:工作流引擎
B:资源管理系统
C:分布式文件系统
D:列式数据库

**解析：**Hadoop分布式文件系统（Hadoop Distributed File System）

20.随着大数据时代的发展，Hadoop生态圈组件越来这丰富。关于Hadoop生态圈组件Ambari是（D）。
A:日志收集
B:数据挖掘库
C:分布式文件系统
D:安装、部署、配置、管理工具

**解析：**Ambari(安装、部署、配置和管理工具)

周周的奇妙编程

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
阿里云大数据ACA及ACP复习题（1~20)

本人备考阿里云大数据考试时自行收集准备的题库，纯手工整理的，能够覆盖到今年7月份，应该是目前最新的，发成文章希望大家能一起学习，不要花冤枉钱去买题库背了，也希望大家能够顺利通关ACA和ACP考试。（阿里云社区同名）
复制链接

扫一扫

专栏目录