hadoop中级hadoop中级

最新推荐文章于 2023-11-23 21:36:15 发布

qq_44869288

最新推荐文章于 2023-11-23 21:36:15 发布

阅读量575

点赞数 1

文章标签： hdfs

本文链接：https://blog.csdn.net/qq_44869288/article/details/117516505

版权

本文涵盖了Hadoop的相关知识，包括HDFS的组件、NoSQL数据库如HBase的特性、数据存储与备份策略、Hadoop集群管理和运维、以及与传统数据库的交互工具如Sqoop。还涉及到了Linux操作系统的基本操作、数据结构、数据库系统和编程语言相关知识点，如Java的并发机制、异常处理等。此外，还介绍了Zookeeper在分布式系统中的作用，以及与Hadoop的配合。文章深入探讨了Hadoop生态系统中的组件如Flume、Hive和YARN的工作原理，以及Hadoop在大数据处理中的应用和挑战。

摘要由CSDN通过智能技术生成

1. Linux 中默认情况下管理员创建了一个用户，将在/home 目录下创建这个用

户主目录。

2. Linux 中列出一个目录下的所有文件使用的命令是 ls -a

3. NoSQL 数据库典型产品有 HBase、MongoDB、Redis 等

4.HBase 的特点有高可靠性、高性能、面向列、可伸缩

5.编译 JavaApplication 源程序文件将产生相应的字节码文件，这些字节码文件

的扩展名为.class

6.设 x=1,y=2,z=3，则表达式 y＋＝z－－/＋＋x 的值是 3

7.HDFS 架构的组成部分有 NameNode、DataNode、SecondaryNameNode

8.计算机网络是计算机技术和通信技术相结合的产物

9.Linux 中将普通用户转成超级用户的命令是 su

10.Linux 中在 vi 编辑器编辑模式里，命令"dd"用来删除当前的行

11.在 Red Hat Linux9 中，查看网络接口的状态使用的命令是 ifconfig

12. HBase 数据库关于单元格中时间戳，需要注意的是：每个单元格插入数据时

都会用时间戳来进行版本标识；读取单元格数据时，如果时间戳没有指定，则默

认返回最新数据；写入新数据时，若时间戳已存在，新数据将无法插入单元格；

写数据时，用户是可以指定时间戳的值的。

13. HBase 数据库关于 minor 合并与 major 合并说法，minor 合并是把多个小

的 HFile 合并成一个大的 HFile；major 合并针对的是给定 Region 的一个列族

的所有 HFile；major 合并时会清理 minor 合并中被标记删除的 HFile；

14. HBase 数据库 Rowkey 设计的原则，可以使用汉字、可以使用字符串、长度

不宜过长。 15.MongoDB 副本集的描述，不能对备份节点执行写操作。备份节点只通过复

制功能写入数据，不接受客户端的写入请求；MongoDB 各个节点常见的搭配方

式为：一主一从、一主多从；所有写入操作都在主节点上。

16. 2name、last_name、$name、_name，其中 2name 不能作为 java 变量

名使用

17.java 中关于 sleep()和 wait()， sleep 是线程类（Thread）的方法，wait 是

Object 类的方法；sleep 不释放对象锁，wait 放弃对象锁；sleep 暂停线程、但

监控状态仍然保持，结束后会自动恢复；

18.关于 java，类是对象的抽象，对象是类的实例； java 语言不支持多继承；类

是组成 java 程序的最小单位；一个 java 程序文件中，最多只能有一个 public

类。

19.以前在传统数据库与 Hadoop 之间，数据传输没有专门的工具，两者数据的

互导是比较困难的，解决了此问题的是 Sqoop

20.Sqoop 的底层实现是 MapReduce

21.对 Flume 描述，一个 Agent 中可以包含多个 Source、Channel 和 Sink；一

个 Sink 只能绑定一个 Channel；一个 Source 可以指定多个 Channel；Agent

是 Flume 的核心。

22.与 Hadoop 1.x 相比，Hadoop 2.x 采用全新的架构，最明显的变化就是增

加了 Yarn 组件

23.Linux 中使用 mount 进行设备或者文件系统挂载的时候，需要用到的设备名

称所在的目录是/dev

24.Linux 中用来定义 shell 全局变量的命令是 export 25. 内存数据库与其他类型的数据库，最大的区别是数据常驻内存。

26.关于异常(Exception)，异常的基类为 Exception，所有异常都必须直接或者

间接继承它；异常可以用 try{ . . .}catch(Exception e){ . . .}来捕获并进行处理；

如果某异常继承 RuntimeException，则该异常可以不被声明。

27.Zookeeper 服务端默认的对外服务端口是 2181

28.关于 ZooKeeper 的说法，ZooKeeper 是一个高可用的分布式数据管理和协

调框架；能够很好的保证分布式环境中数据的一致性；越来越多的分布式系统

（Hadoop、HBase、Kafka）中使用 ZooKeeper。

29. 在Ubuntu Linux中，系统默认的root用户对整个系统拥有完全的控制权。

30. 除非特别指定，cp 要拷贝的文件在当前目录下

31. kill all 命令可以终止一个用户的所有进程

32. 数据库系统的特点是数据共享、数据独立、减少数据冗余、避免数据不一致

和加强了数据保护。

33. Datanode 负责 HDFS 数据存储。

34. HDFS 中的 block 默认保存 3 个备份。

35. 以长格式列目录时，若 test 的权限描述为：drwxrw-r--，则其类型及文件

主的权限是目录文件、读写执行。

36. Linux 从后台启动进程，应在命令的结尾加上符号&

37. DBMS 是位于用户和操作系统之间的数据管理软件。

38. 在数据库中存储的是数据和数据之间的联系

39. 数据结构是刻画一个数据模型性质最重要的方面。人们通常按它的类型来命

名数据模型。 40. 关系数据库规范化是为解决关系数据库中插入、删除和数据冗余问题而引入

的。

41. 事务使数据库“从一个一致状态转变到另一个一致状态”的性质称为事务

的一致性。

42. 关于 Java 语言，如果源代码中有 package 语句，则该语句必须放在代码的

第一行

43. 一个*.java 文件中可以包含最多 1 个 public 类

44. 磁盘通常是 Hadoop 集群的最主要的性能瓶颈

45. SecondaryNameNode 目的是帮助 NameNode 合并编辑日志，减少

NameNode 启动时间

46. 一个 gzip 文件大小 75MB，客户端设置 Block 大小为 64MB，其占用 2 个

Block？

47. Jobtracker 通常与 NameNode 在一个节点启动

48. HBase 是分布式列式存储系统，记录按列族集中存放。

49. 设计分布式数据仓库 hive 的数据表时，为取样更高效，一般可以对表中的

连续字段进行分桶操作。

50. MapReduce 编程模型，键值对 <key, value> 的 key 必须实现

WritableComparable 接口

51. 客户端首次查询 HBase 数据库时，首先需要从–ROOT-表开始查找。

52. 在实验集群的 master 节点使用 jps 命令查看进程时，终端出现

Namenode,JobTracker, secondaryNameNode 说明 Hadoop 主节点启动成

功 53. Hadoop 的 Client 端上传文件的时候，Client 端将文件切分为 Block，依

次上传

54. HDFS1.0 默认 Block Size 大小是 64MB。

55. 若要使用进程名来结束进程，应使用 kill 命令。

56. Java 中 main()函数的返回值是 void

57. Java 程序的并发机制是多线程

58. 能单独和 finally 语句一起使用的块是 try

59. 在 Internet 上浏览时，浏览器和 WWW 服务器之间传输网页使用的协议是

HTTP

60.在计算机网络中，一般局域网的数据传输速率要比广域网的数据传输速率高

61. TCP/IP 体系结构中的 TCP 和 IP 所提供的服务分别为运输层服务和网络层服

务

62. 在 Internet/Intranet 中，不需要为用户设置帐号和口令的服务是 DNS

63. tar -xzvf filename.tgz 命令解压缩 tar 文件

64. 使用 ping 命令检测基本网络连接

65. 在 vi 中退出不保存的命令是:q!

66. pwd 命令功能是显示当前目录的绝对路径

67. 在 SQL 的 Select 语句中，用于对结果的排序的关键字为 ORDER BY

68.关系数据库用二维表来表示实体之间的联系。

69.具有数据冗余度小，数据共享以及较高数据独立性等特征的系统是数据库系

统。

70. Hadoop 设置免密码登录时，使用的协议是 SSH 71. 在 Ubuntu Linux 中，系统默认的 root 用户对整个系统拥有完全的控制权

72. Linux 默认情况下管理员创建了一个用户，就会在/home 目录下创建一个用

户主目录。

73．如果要列出 Linux 系统中一个目录下文件的详细信息需要使用命令是 ls -l

74. 以下那个命令可以删除目录 rm -r

75. Linux 系统中查看运行的进程，可以使用 ps 命令

76．数据库管理系统能够实现对数据库中的数据进行插入，删除，修改，查询操

作的数据库语言称为数据操控语言（DML）

77. 在 SQL 语法中，用来插入数据的命令是 INSERT

78. 在SQL语法中，SELECT语句的完整语法较复杂，但至少包括SELECT, FROM

79．SQL 语言包括数据定义操作(DDL)、数据操纵操作(DML)等，CREATE 关键

字属于数据定义操作

80．数据库中的缩写 DBMS 是指数据库管理系统

81. Java 中，如果类 C 是类 B 的子类，类 B 是类 A 的子类，则 C 不仅继承了 A

中的成员，而且继承了 B 中的成员

82．作为 Java 应用程序入口的 main 方法，其声明是

public static void main(String[] args)

83．适合使用 Hadoop 技术处理的场景是大数据离线分析

84. Hadoop 核心组件不包括 GFS

85. HDFS 中的最重要的组成之一 NameNode，其职责为接收客户端的请求；

管理 DataNode 上的数据块，管理 DataNode 上文件 Block 的负载均衡，维持

副本数量；管理和维护 HDFS 的命名空间（Namespace）。 86. 关于 HDFS 名称节点维护的 edits 文件和 fsimage 文件的描述，fsimage 文

件体现了 HDFS 最新的状态

87. HDFS 上的文件对应的数据块保存有多个副本，且提供容错机制，副本丢失

或宕机时自动恢复。HDFS 默认保存 3 份副本，第一个副本放置在上传文件的

数据节点；第二个副本放置在与第一个副本不同的机架的节点上；第一个副本如

果是在集群外提交，则随机挑选一台磁盘不太满、CPU 不太忙的节点。

88. 通过终端命令行上传文件到 HDFS，使用的命令是 put

89. 关于 HDFS 配额的描述，HDFS 可以设置名称配额，限制目录下文件数量；

HDFS 可以设置空间配额，限制目录下文件总大小；可以通过 hdfs dfs -count

-q <dir> 查看配额信息。

90. YARN 的组成包括 ResourceManager 、 NodeManager 、

ApplicationMaster

91. MapReduce 易于编程、良好的扩展性、高容错性，但不擅长对海量数据进

行在线处理

92. MapReduce 所有的输入和输出的数据类型必须是 hadoop 的数据类型，比

如 LongWritable、NullWritable、Text

93. MapReduce 中分区数量由分区决定

94. HDFS 中数据库副本的默认备份数是 3 个

95.关于 HBase 的特点，伸缩性：表可以很“高”（数十亿个数据行），可以很

“宽”（数百万个列）；自动分区：当表增长时，表会自动分裂成 Region，并分

布到可用节点上；线性扩展和对于新节点的自动处理：增加节点，使它指向

RegionServer，Region 自动负载均衡。 96. Hive 数据模型包括内部表（托管表）、外部表、桶表

97. 使用 Sqoop 从 hdfs 中导数据到关系数据库中的命令是 export

98. ZooKeeper 是一个高可用的分布式数据管理和协调框架；ZooKeeper 能够

很好的保证分布式环境中数据的一致性；在越来越多的分布式系统（Hadoop、

HBase、Kafka）中，Zookeeper 都作为核心组件使用

99. Linux 文件权限一共 10 位长度，分成四段，第三段表示的内容是文件所有

者所在组的权限

100. 建立动态路由需要用到的文件有/etc/gateways

101.下列文件中，包含了主机名到 IP 地址的映射关系的文件是/etc/hosts

102.若一台计算机的内存为 128MB，则交换分区的大小通常是 256MB

103.当我们与某远程网络连接不上时，就需要跟踪路由查看，以便了解在网络的

什么位置出现了问题，满足该目的的命令是 traceroute

104. WWW 服务器是在 Internet 上使用最为广泛，它采用的是 B/S 结构

105. 在重新启动 Linux 系统的同时把内存中的信息写入硬盘，应使用#

shutdown –r now 命令实现

106. HDfS 中的 block 默认保存 3 份

107. HDFS 默认 Block Size 64MB

108.关于 input split 和 block，input split 是一种记录的逻辑划分,而 block 是

对输入数据的物理分割,两者之间有着本质的区别

109. Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文本映

射为一张数据库表，并提供简单的 SQL 查询功能

110. HBase 依靠 HDFS 存储底层数据 111. HBase 依赖 Zookeeper 提供消息通信机制

112. HBase 依赖 MapReduce 提供强大的计算能力

171. Chubby 是与 Zookeeper 类似的框架

172. SQL 语言中，删除一个表的命令是 DROP

173、只有满足联接条件的记录才包含在查询结果中，这种联接为内部联接

174. 如果希望进行分组统计的查询输出，可以使用 GROUP BY 子句

175. 在标准 SQL 中，建立视图的命令是 CREATE VIEW 命令

176. 查询表 EMP 中不同 DEPTNO 的 SAL 字段的分类合计值的 SQL 语句是

SELECT DEPTNO,SUM(SAL) FROM EMP GROUP BY DEPTNO

177. SQL 语句中修改表结构的命令是 ALTER TABLE

178. 关系数据库中，主键是为标识表中唯一的实体

179. Hadoop 运行的模式有单机版、伪分布式、完全分布式

180. Linux 的正常关机命令可以是 shutdown -h now、halt

181.Linux 的每类用户拥有三种权限，分别是 r、w、x。

182. Linux 系统必须至少要创建哪些分区：根分区(/) 、交换(swap)分区

183. 假设用户当前目录是：/home/xu，现需要返回到用户主目录，则哪些命令

可实现这一目的：cd $HOME、cd、cd ~

184. Hadoop 的 Client 端上传文件的时候，Client 端将文件以 Block 为单位，

管道方式依次传到 DataNode；当某个 DataNode 失败，客户端会继续传给其

它 DataNode

185. 配置机架感知，如果一个机架出问题，不会影响数据读写；写入数据的时

候会写到不同机架的 DataNode 中；MapReduce 会根据机架获取离自己比较近的网络数据

186. 数据库管理员希望对数据库进行性能优化，行之有效的方法为将数据库的

数据库文件和日志文件分别放在不同的分区上；在数据库服务器上尽量不要安装

其他无关服务

187. 在关系数据库中存在的完整性规则有实体完整性规则、引用完整性规则、

用户定义的完整性规

最低0.47元/天解锁文章

qq_44869288

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
hadoop中级hadoop中级

1. Linux 中默认情况下管理员创建了一个用户，将在/home 目录下创建这个用户主目录。 2. Linux 中列出一个目录下的所有文件使用的命令是 ls -a 3. NoSQL 数据库典型产品有 HBase、MongoDB、Redis 等 4.HBase 的特点有高可靠性、高性能、面向列、可伸缩 5.编译 JavaApplication 源程序文件将产生相应的字节码文件，这些字节码文件的扩展名为.class 6.设 x=1,y=2,z=3，则表达式 y＋＝z－－/＋＋x
复制链接

扫一扫