大数据复习知识点1

1、HDFS和MapReduce的起源:HDFS起源于Google的GFS论文,它是为了解决大规模数据集的存储问题而设计的。而MapReduce则是Google为了解决大规模数据处理问题而提出的一种并行计算模型。

2、YARN的作用:YARN是Hadoop的资源管理器,它负责管理和调度集群中的计算资源,使得Hadoop能够支持各种计算模型和应用程序。

3、Hive的作用:Hive是一个基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为数据库表,并提供SQL查询功能,使得大规模数据的查询和分析变得更加简单。

4、Spark的特点:Spark拥有先进的架构,高效的数据处理能力和易用的API,还支持多种机器学习和图计算库,非常适合大规模数据处理和机器学习任务。

5、虚拟机的网络连接方式:虚拟机有三种网络连接方式:桥接模式、NAT模式和仅主机模式。桥接模式让虚拟机和主机处在同一局域网下;NAT模式让虚拟机可以访问外网,但其他主机不能访问虚拟机;仅主机模式则让虚拟机只能访问主机,不能访问外网。

6、查看主机名的命令:可以使用hostname命令来查看主机名。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值