Hadoop学习笔记:基础

1. Hadoop和谷歌的Mapreduce、GFS技术的关系

Hadoop是一个开源的分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop的核心是Mapreduce和HDFS。
Mapreduce是谷歌的MapReduce的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。是一种编程模型,用于大规模数据集(1T以上)的并行计算,把输入的数据集分为若干个独立数据块,分发到各个分节点上共同完成计算,最后整合中间结果得到最终结果。
HDFS是谷歌的GFS的开源实现,是面向普通硬件环境的分布式文件系统。

2. Hadoop的特性

  • 高可靠性 + 高容错性:冗余机制保证数据存储的可靠性和容错性。
  • 高效性:分布式存储和分布式处理两大核心技术保证了数据处理的高效性
  • 高可扩展性 + 低成本:存储在廉价的计算机集群上,成本较低,也方便扩展到更多的计算机节点。
  • 支持多种编程语言

3. Hadoop在各个领域的应用情况

例如电商、旅游、政府、健康等行业,都会使用hadoop作为数据存储的架构。

4. Hadoop生态系统以及具体功能

Hadoop生态

5. 配置Hadoop时,Java的路径JAVA_HOME是在哪一个配置文件中进行设置的?

根目录下的.bashrc文件中

cd ~
vim ~/.bashrc

6.所有节点的HDFS路径是通过fs.default.name设置的,在哪一个配置文件里?

在core-site.xml文件(不是很确定)

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

7. 单机模式和伪分布模式的异同点

单机模式只有一个java进程。一般用于调试MapReduce算法,不含HDFS。
伪分布模式的执行逻辑和分布式相同,但所有进程都运行在一个节点上,用线程模拟进程。

8. Hadoop伪分布式运行启动后的进程

cd /usr/local/hadoop
./sbin/start-dfs.sh
jps
./sbin/stop-dfs.sh
  • NameNode
  • DataNode
  • SecondaryNameNode
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值