《高级大数据系统》作业

成精的蛋黄派๑

已于 2023-11-26 19:05:20 修改

阅读量189

点赞数 3

文章标签：笔记经验分享学习方法数据库

于 2023-11-25 04:46:20 首次发布

本文链接：https://blog.csdn.net/weixin_43402118/article/details/134609853

版权

本文介绍了Linux中常用的数据处理命令，如wget、more、head、cat、grep、awk，以及HadoopMapReduce、Spark和NoSQL数据库的基础知识，还涵盖了图形数据库和推荐系统中的案例研究。

摘要由CSDN通过智能技术生成

Basics of Linux Data Processing--Manipulating Data

判断题：wget命令可用于下载文件（√）
判断题：more命令的-s参数可用于合并文件中的多个连续空行（√）
判断题：head命令可从文件中任意一行开始读取文件（×）
单选题：cat命令的那个参数可以在读取文件时将文件中的TAB字符转化成^l （A）
A. -T
B. -A
C. -b
D. -E
判断题：grep命令的-I参数可用于在查询多文件时只输出包含匹配字符的文件名（√）
判断题：grep的-r参数可用于在查询多文件时，迭代的查询文件夹内的文件（√）
判断题：grep的pattern中加上$表示正则表达式从段首开始匹配（×）
多选题：利用grep统计文件中不包含某一模式的文字的行数，需要用到以下那些命令？（BC）
A. -o
B. -v
C. -c
D. -i
多选题：grep 'line.*empty' 会匹配下列哪些行？（ABCD）
A. this line is empty
B. this line empty
C. this line.empty
D. this lineempty
单选题：grep line.+empty' 不会匹配下列哪一行？（D）
A. this line is empty
B. this line +empty
C. this line.empty
D. this lineempty
多选题：利用grep匹配文件中的gray或者grey，pattern可以为（AD）
A. 'gre||ay'
B. 'gre|ay'
C. 'gr(e|a)y'
D. 'gray||grey'
单选题：awk中-F参数可用于指定分隔符，将每一行按照分隔符进行分列（A）
A. 正确
B. 错误
单选题：awk中-f参数可用于从脚本文件中读取awk命令（A）
A. 正确
B. 错误
单选题：test.txt文中如下

则cat test.txt| awk '{print NR,NF}'的输出为（B）

A. 正确
B. 错误
多选题：test.txt文中如下

某一命令的输出为

则该命令可能为：（AC）
A. awk '{print $2 "\t" $4}' test.txt | sort -k2
B. awk '{print $3 "\t" $4}' test.txt | sort -n -k2
C. awk '{print $2 "\t" $4}' test.txt | sort -n -k2
D. awk '{print $2 "\t" $4}' test.txt | sort -n -k1
多选题：下列哪些是常用的登陆服务器的工具？（AD）
A. putty
B. winSCP
C. sshfs
D. ssh
多选题：下列哪些命令从头开始读取一个文件？（ABD）
A. head
B. more
C. tail
D. less
判断题：file命令用来确定文件的大小（×）
判断题：wc命令可以用来查看文本文件中的单词数（√）
判断题：ls的-A参数可以用来查看文件名以.开始的隐藏文件（√）

Running Commands on a Single Machine

判断题：设置HISTIMEFORMAT变量，如export HISTTIMEFORMAT='%F %T'，可以在使用history命令式同时输出时间戳（√）
判断题：!!命令可用于再次执行上一条命令（√）
判断题：$?中存储了上一条命令的运行结果，$?等于1表示上一条命令执行成功（×）
判断题：crontab的-I参数可用于显示某个用户的crontab文件内容（√）
判断题：last命令可用于显示最近登陆过的用户（√）
单选题：下列哪条语句输出所有由我运行的程序的PID？（B）
A. ps aux | grep -v whoami | awk '{print $2}'
B. ps aux | grep whoami | awk '{print $2}'
C. ps | grep whoami | awk '{print $2}'
D. ps aux | grep whoami | awk -F '{print $2}'

Using a Linux Cluster

判断题：通过生成ssh密钥，可以不用密码登陆linux服务器（√）
单选题：下列哪个工具可以在多台服务器上同时执行命令？（B）
A. pscp
B. pssh
C. pslurp
D. pnuke

Storage for Big Data Computing: Distributed file system

单选题：下列哪些属于分布式文件系统？（D）
A. HBase
B. Spark
C. MapReduce
D. KFS
判断题：在处理数据的能力上，分布式文件系统相比于单机最大的优点是能够并行处理数据（√）
单选题：在存储文件方式上，传统文件系统和DFS （B）
A. 两者都以文件形式存储数据
B. 前者以文件形式存储数据，后者以固定大小的块单元存储数据
C. 前者以文件形式存储数据，后者以文件和固定大小的块单元形式存储数据
D. 两者都以block或者chunk形式存储数据

File system and GFS

多选题：分布式事务处理的特性包括哪些（ABCD）
A. 持久性
B. 隔离性
C. 原子性
D. 一致性
多选题：分布式系统设计包括（ABCDE）
A. 容错，design for fault
B. 数据/服务可靠性
C. 多数据中心的数据一致性
D. 可扩展性
E. 尽可能的满足ACID特性
单选题：下面关于GFS集群的叙述中，正确是（C）
A. GFS所有的元数据都存放在chunkserver上
B. GFS所有的元数据都是放在硬盘上的
C. 一个GFS集群包括一个master和大量chunkserver
D. 其他选项均不正确
判断题：GFS中，客户与master的交换只限于对元数据 (metadata) 的操作，所有数据方面的通信都直接和chunkserver联系（√）

Understanding HDFS using Legos

多选题：关于HDFS，下面说法正确的是（ACDE）
A. HDFS中的文件以块序列的形式存储
B. 存储的文件块都有相同的大小
C. 文件块为了故障容错而被复制
D. HDFS中的文件是一次写的
E. 名字节点周期性地接受集群中数据节点的心跳和块报告，一个心跳的到达表示这个数据节点是正常的
判断题：HDFS适用于要求低延时访问的应用程序（×）
多选题：HDFS中一个文件备份在多个位置的好处有哪些？（AB）
A. 改善服务的伸缩性
B. 提高了容错能力
C. 保证文件的完整性
D. 保证文件的透明性
多选题：对于HDFS中的名字节点，下面说法正确的是（BD）
A. 文件被分割成一个或多个块，被存储在一组名字节点中
B. 名字节点可以对命名空间的文件或目录操作，如打开，关闭，重命名等
C. 名字节点可以处理来自文件系统客户对读写请求，以及执行块的创建，删除等操作
D. 名字节点可以确定块与数据节点等映射

File System Implementation and DFS

判断题：HDFS中典型的块大小是64MB，一个HDFS文件可以被被切分成多个64MB大小的块，如果需要，每一个块可以分布在不同的数据节点上（√）
单选题：以下关于HDFS叙述错误的是？（A）
A. 一个客户端创建一个文件的请求会立即转发到名字节点。
B. 当本地文件堆积到一个HDFS块大小的时候，客户端才会通知名字节点
C. 名字节点构造包括数据节点ID和目标数据块标识的报文，用它回复客户端的请求
D. 当文件关闭时，本地临时文件中未上传的残留数据就会被转送到数据节点
单选题：当Job Tracker宕掉时，Namenode会发生什么？（B）
A. 当Job Tracker失败时，集群也随之宕机
B. 当Job Tracker失败时，集群仍然可以正常工作，只要Namenode没问题
C. 当Job Tracker失败时，集群始终不会受到影响
多选题：Hadoop集群可以运行的几个模式有（ABC）
A. 单机 (本地) 模式
B. 伪分布式模式
C. 全分布式模式
多选题：“jps”命令的用处？（ABCD）
A. 检查Namenode是否正常工作
B. 检查Datanode是否正常工作
C. 检查Task Tracker是否正常工作
D. 检查Job Tracker是否正常工作

What is MapReduce and why

判断题：jobtracker和tasktracker都可以管理整个系统内的任务（×）
判断题：mapreduce系统中如节点故障、网络不通的问题都可以由系统自动管理（√）
单选题：数据读入在mapreduce的那个阶段产生？（A）
A. Map
B. Reduce

Processing pattern

判断题：Map阶段生成的结果通过网络直接传输给reduce节点（×）
判断题：通过自定义partition过程，用户可以自定义每个key将被分配到的reducer （√）
判断题：具有同一个key的key/value对可能被分配到不同的reduce上（×）

Hadoop

判断题：Map，Partition和Reduce阶段都存在对Local Storage的读写（×）
判断题：Fair Scheduling对小任务更公平（√）
判断题：MapReduce处理的数据通常只存储在一台服务器上（×）

Algorithms in MapReduce

判断题：MapReduce中search任务可以只用map实现（√）
判断题：统计最流行的单词时，可以通过提前去除出现频率低的单词，来提高程序效率（√）
判断题：利用Partition行数，Map和Reduce阶段不做任何操作即可实现排序功能（√）
判断题：通过串联多个MapReduce过程，可以实现复杂的数据处理功能（√）

Background

多选题：Spark的核心API支持下列哪几种语言（ADE）
A. Java
B. C/C++
C. Ruby
D. Scala
E. Python
多选题：Spark 生态体系中，包括以下哪几种计算框架（ACD）
A. Streaming
B. Storm
C. MLlib
D. Graphx
判断题：Spark运行在现有的分布式文件系统(HDFS)之上（√）
单选题：Spark大部分是用那种语言编写的（A）
A. Scala
B. C++
C. Java
D. C

Spark

判断题：Spark一切都以Resilient Distributed Dataset(RDD)为基础（√）
判断题：弹性数据集(RDD)的transformation操作表示对数据集的操作延迟执行，而Action操作表示执行对数据集的操作（√）
多选题：弹性数据集(RDD)可以从下列哪些对象转换过来？（ACD）
A. 其他RDD转换而来
B. Linux单机文件系统中的数据
C. HDFS中存储的数据集
D. Hbase中的数据

Use Spark for data mining

多选题：以下针对RDD的操作中，属于Transformation的操作有哪些？（ABD）
A. map()
B. filter()
C. count()
D. union()
多选题：以下针对RDD的操作中，属于Action的操作有哪些？（ABC）
A. collect()
B. reduce()
C. save()
D. cogroup()
多选题：下列哪些模式可以运行Spark？（ABCD）
A. Loca
B. Standalone
C. Mesos
D. YARN

Spark data processing

判断题：在Spark的运行架构中，一个Job包含多个Task（被送到executor上的工作单元）组成的并向计算，往往由Transformation产生（×）
多选题：在Spark的任务处理中，Master节点充当哪些角色（ABD）
A. 任务和资源调度
B. 节点管理
C. 执行Executor进程
D. RDD graph
单选题：Spark运行任务过程中的Stage是由下列哪个过程产生的？（B）
A. RDD Objects
B. DAGScheduler
C. TaskScheduler
D. Worker

Experiment in Spark

判断题：在Spark计算的过程中，可以直接使用 Local files 和 DFS fies 作为数据源来生成原始RDD （√）

Introduction to streaming data processing

多选题：哪些是流式数据处理的特征？（ABC）
A. 秒级延迟
B. 输入是流式数据源
C. 整合了batch和interactive操作
多选题：哪些应用需要用到streaming data processing？（ABC）
A. 社交媒体
B. Web data
C. 入侵检测数据

Storm

判断题：Storm中的Bolt既可以处理收到的Tuples，也可以创建新的Tuples流（√）
多选题：哪些是Apache Storm提供的默认系统管道（system pipelines）？（ABCDE）
A. AlertPipeline
B. ErrorSearchPipeline
C. GraphiteWriterPipeline
D. MonitorMetricPipeline
E. SelfTestPipeline

Spark streaming

判断题：Data Pipeline 允许超级用户部署、启动、停止以及编辑预定义的系统管道（√）
判断题：如果nodes失效，那么storm和spark streaming在处理数据时都会丢失状态信息（×）

NoSQL introduction

多选题：目前世界上主流的存储系统大部分还是采用了关系型数据库，关系型数据库的主要优点是（ACD）
A. 事务处理上能够保持数据的一致性
B. 读写快且成本低
C. 数据更新的开销很小
D. 可以进行Join等复杂的查询
多选题：“NOSQL”系列数据库与传统的关系型数据库相比，优点有哪些（BCD）
A. 支持事务性操作
B. Scale 特性，支持简单的扩展
C. 快速的读写
D. 低廉的成本
判断题：关系型数据库所使用的定义严格、基于模式的方法是无法快速容纳新的数据类型的对于非结构化或者是半结构化的数据更是无能为力。而NoSQL提供的数据模型则能够很好地处理非结构化/半结构化数据（√）
判断题：由于NoSQL数据库是分布式、水平扩展的，非常容易实现动态的可伸缩性（√）

Common Advantages

多选题：在下列哪些生产环境的需求驱动下，使用“NoSQL”系列数据库比较合适（ABCD）
A. 数据库表schema经常变化
B. 数据库表字段是复杂数据类型
C. 高并发数据库请求
D. 海量数据的分布式存储
多选题：“NoSQL”系列的数据库根据数据的存储模型和特点可以分为很多类，其中属于“key-value”存储类型的是（ABCD）
A. Berkeley DB
B. Memcache DB
C. Redis
D. Tokyo Cabinet/Tyrant
多选题：属于图存储类型的“NoSQL”数据库有哪些（AC）
A. Neo4J
B. MongoDB
C. FlockDB
D. db4o

Bigtable

判断题：BigTable是一个大规模管理半结构化/非结构化而设计的分布式存储系统，可以扩展到PB级数据和上千台服务器（×）
判断题：BigTable的时间戳是第一级索引（×）
单选题：如图所示，我查询"thu/"cs:foo"/8，返回的值是多少（A）

A. m
B. y
C. d
D. w

Master Startup

判断题：BigTable依赖于Google的几项技术，用GFS来存储日志和数据文件；按SSTable文件格式存储数据；用Chubby管理元数据（√）
单选题：Chubby是一种高可用的分布式锁服务，Chubby有几个活跃副本，同时有几个主副本提供服务（B）
A. 62
B. 51
C. 31
D. 21
判断题：Bigtable集群包括三个主要部分: 一个供客户端使用的库，一个主服务器 (masterserver) ，许多片服务器 (tablet server) 。客户端需要读写数据时，直接与片服务器联系（√）

HBase

单选题：下列哪个不属于HBase的特点（B）
A. 构建在HDFS上的分布式列存储系统
B. 典型的文档存储的数据块系统
C. Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储
D. HBase将数据按照表、行和列进行存储
E. Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力
判断题：HBase 为每个值维护了多级索引，即：<key, column family, column name, timestamp> （√）