阿里云大数据ACA及ACP复习题(1~20)

1.(多选)MaxCompute在每一个项目空间在创建时,会自动创建admin的角色, 并且为该角色授予了确定的权限。以下权限中不属于admin的有哪些(ABD)。
A:设定项目空间的安全配置
B:修改项目空间的鉴权模型
C:将admin权限指派给其他用户
D:以package方式授权
E:对其他用户或角色进行授权

解析:MaxCompute创建项目成功后,除了项目所有者(Project Owner)外还内置了两个默认的管理角色Super_Administrator和Admin,Admin角色不具有设定项目空间的安全配置的权限,Admin角色不能修改项目空间的鉴权模型,不能Admin权限指派给其他用户。

2.(多选)MaxCompute中支持多种表连接 (join) 的方式,包括哪些(CD)。
A:semi outer join
B:anti outer join
C:full outer join
D:mapjoin

解析:semi outer和anti outer支持left join。full outer join和map join是dataworks支持的join方式 。

3.(多选)Google在大数据发展的过程中做出了非常大的贡献,其中有三篇非常具有影响力的论文,论述了文件系统、非关系型数据库、并行计算框架,分别为(ABC)。
A:GFS
B:BigTable
C:MapReduce
D:HDFS
E:Hbase
F:Spark

解析:google 分别在 2003 年、2004 年以及 2006 年发布了大数据发展影响重大的三篇论文:1、The Google File System,简称 GFS;2、MapReduce;3、Bigtable。分别论述文件系统、非关系型数据库、并行计算框架 。

4.阿里云机器学习PAI支持多种常见的算法,以下属于分类算法的有(AB )。
A:KNN
B:RandomForest
C:K-Means
D:DBSCAN

解析:KNN是近邻分类算法,是通过测量不同特征值之间的距离进行分类的算法;RandomForest算法是随机森林算法,可以用作分类算法;K-Means算法是k均值聚类算法,用作聚类分析算法;DBSCAN算法是密度聚类算法,用作聚类分析。

5.采用分布式的方式存储数据时,要考虑数据复制时一致性的问题,关于一致性如何保证可以采取多种基本原则和设计理念,不包括哪项。(A)
A:LRU
B:CAP
C:ACID
D:BASE

解析:数据复制与一致性基本原则和设计理念包括:CAP、ACID、BASE等,不包括LRU。

6.大数据计算服务MaxCompute是阿里巴巴自主研发的海量数据处理平台,主要服务于批量结构化数据的存储和计算。以下不适合使用大数据计算服务实现的场景是?(A)
A:订单办理
B:数据仓库
C:社交网络分析
D:用户画像

解析:MaxCompute是阿里云大数据离线计算服务组件,适合批量数据开发调度,订单办理属于实时业务,不适合有maxcompute完成。同时maxcompute适用于日志分析,用户画像,数据化运营,数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘

7.使用odpscmd连接到MaxCompute中的某个project后,执行什么命令可以查看表table_b占用空间的大小。(A)
A:desc table_b;
B:size table_b;
C:select size from table_b;
D:show table table_b;

解析:desc是查看表或者视图信息

8.MaxCompute项目空间A设置了项目空间保护: set ProjectProtection=true;并且将项目空间B设置为可信空间: add trustedproject B;无其他任何设置。以下说法中正确的是哪项?(A)
A:项目空间A中的数据可以流至项目空间B
B:项目空间B中的数据可以流至项目空间A
C:项目空间A和项目空间B中的数据可双向流动
D:项目空间B中的数据只可以流至项目空间A

解析:如果当前项目空间处于受保护状态,如果将数据流出的目标空间设置为当前空间的TrustedProject,那么目标项目空间的数据流向将不会被视为触犯ProjectProtection规则。如果多个项目空间之间两两互相设置为TrustedProject,那么这些项目空间就形成了一个TrustedProject Group,数据可以在这个Project Group内流动,但禁止流出到Project Group之外。

9.MaxCompute SQL采用的是类似于SQL的语法,适用于海量数据,实时性要求不高的场合。关于MaxCompute SQL,以下说法正确的包括哪些选项?(BCD)
A:MaxCompute可以等价成一个数据库,可以完成事务及回滚的功能
B:MaxCompute的每个作业准备以及提交都需要花费较长时间,因此不适用对于要求响应时间较短的准实时查询
C:MaxCompute SQL支持多种操作,如含join, where, order by, group by等
D:MaxCompute SQL包括的数据类型有BigInt, Float, Double, String, Date Time, Boolean

解析:MaxCompute并不具备数据库的常见特性,如事务、回滚等。

10.MaxCompute可通过ACL授权来协调多用户操作同一个项目,下列选项中,可以进行ACL授权的对象包括哪些?(ABC)
A:Project
B:Table
C:Resource
D:Procedure

解析:ACL授权对象包括:project table function resource instance

11.(多选题)MaxCompute可以通过ACL授权来协调多用户操作同一个项目,进行授权时需要包括以下 (ABC) 因素。
A:主体
B:客体
C:操作
D:原则
E:限制条件

**解析:**ACL授权一般涉及到三个要素,即主体(Subject,可以是用户也可以是角色)、客体(Object)和操作(Action)。

12.(多选题)MaxCompute是用于数据分析场景的企业级SaaS模式的云数据仓库,以下选项中哪些连接工具能连接MaxCompute? (ABD)
A:MaxCompute控制台的查询编辑器
B:使用客户端(Odpscmd)连接
C:Dbeaver
D:MaxCompute Studio

**解析:**https://help.aliyun.com/document_detail/252783.html 查询编辑器(MaxCompute控制台)、使用客户端(odpscmd)连接、DataWorks、MaxCompute Studio

13.Apache Spark核心组件包含:Spark Streaming、Spark SQL、Spark Core、GraphX、MLlib,下列哪个选项是对MLib组件的描述?(D)
A:提供流计算组件
B:是一个用来处理结构化数据的Spark组件
C:基于内存多语言执行的核心引擎
D:Spark机器学习库

**解析:**Spark的MLlib提供了较丰富的机器学习库,包括分类、回归、协同过滤、聚合,同时提供了模型选择、自动调参和交叉验证等工具来提高生产力。MLlib主要支持非深度学习的算法模块 https://help.aliyun.com/document_detail/441938.html

14.在MapReduce处理过程中,每次计算都要从磁盘读取数据完成计算后又写入磁盘。这体现了MapReduce的哪个缺点?(B)
A:不擅长实时计算
B:磁盘IO开销大
C:延迟高
D:中间结果多

**解析:**MapReduce的缺点: 1、无法在毫秒或秒级内返回结果; 2、输入数据集是动态的,不能动态变化; 3、每次作业后输出结果都会写入磁盘、会造成大量磁盘IO,导致性能低下。

15.分类算法是把每一条记录归到对应的类别之中,以下哪个不属于分类算法应用的场景?(D)
A:分析用户是否会购买电脑
B:分析用户是否会点击弹出的广告
C:分析收到的邮件是否为垃圾邮件
D:根据新输入父母的身高来分析其孩子的身高

**解析:**根据新输入父母的身高来分析其孩子的身高,不属于分类算法

16.下列数据库属于图数据库的是(B)。
A:Redis
B:GraphDB
C:MongoDB
D:Cassandra

**解析:**图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。 https://help.aliyun.com/document_detail/102799.html?spm=a2c4g.194181.0.i4 云数据库MongoDB版、云数据库Redis版、云数据库Cassandra

17.存储数据的结构可以分为:结构化、非结构化、半结构化。下列选项中,属于非结构化数据的是?(D)。
A:JSON文档
B:XML文档
C:日志文件
D:图片

**解析:**非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等。

18.在《大数据时代》一书中,维克托·迈尔-舍恩伯格和肯尼斯可耶提出大数据的“4V特征。“4V特征包含(ACDE)。
A:Volume规模性
B:Vitality动态性
C:Velocity高速性
D:Variety多样性
E:Value价值性

**解析:**大数据的特征,由维克托迈尔-舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出,大数据的4V特征:规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值性(Value)。

19.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop组件HDFS是(C)。
A:工作流引擎
B:资源管理系统
C:分布式文件系统
D:列式数据库

**解析:**Hadoop分布式文件系统(Hadoop Distributed File System)

20.随着大数据时代的发展,Hadoop生态圈组件越来这丰富。关于Hadoop生态圈组件Ambari是(D)。
A:日志收集
B:数据挖掘库
C:分布式文件系统
D:安装、部署、配置、管理工具

**解析:**Ambari(安装、部署、配置和管理工具)

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值