1. Hadoop和谷歌的Mapreduce、GFS技术的关系
Hadoop是一个开源的分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop的核心是Mapreduce和HDFS。
Mapreduce是谷歌的MapReduce的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。是一种编程模型,用于大规模数据集(1T以上)的并行计算,把输入的数据集分为若干个独立数据块,分发到各个分节点上共同完成计算,最后整合中间结果得到最终结果。
HDFS是谷歌的GFS的开源实现,是面向普通硬件环境的分布式文件系统。
2. Hadoop的特性
- 高可靠性 + 高容错性:冗余机制保证数据存储的可靠性和容错性。
- 高效性:分布式存储和分布式处理两大核心技术保证了数据处理的高效性
- 高可扩展性 + 低成本:存储在廉价的计算机集群上,成本较低,也方便扩展到更多的计算机节点。
- 支持多种编程语言
3. Hadoop在各个领域的应用情况
例如电商、旅游、政府、健康等行业,都会使用hadoop作为数据存储的架构。
4. Hadoop生态系统以及具体功能
5. 配置Hadoop时,Java的路径JAVA_HOME是在哪一个配置文件中进行设置的?
根目录下的.bashrc文件中
cd ~
vim ~/.bashrc
6.所有节点的HDFS路径是通过fs.default.name设置的,在哪一个配置文件里?
在core-site.xml文件(不是很确定)
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
7. 单机模式和伪分布模式的异同点
单机模式只有一个java进程。一般用于调试MapReduce算法,不含HDFS。
伪分布模式的执行逻辑和分布式相同,但所有进程都运行在一个节点上,用线程模拟进程。
8. Hadoop伪分布式运行启动后的进程
cd /usr/local/hadoop
./sbin/start-dfs.sh
jps
./sbin/stop-dfs.sh
- NameNode
- DataNode
- SecondaryNameNode