大数据开发【2】--hadoop的初步使用

最新推荐文章于 2024-04-15 05:25:34 发布

天下一般

最新推荐文章于 2024-04-15 05:25:34 发布

阅读量199

点赞数

分类专栏：后台文章标签：大数据

本文链接：https://blog.csdn.net/fuzekun/article/details/123794445

版权

后台专栏收录该内容

71 篇文章 1 订阅

订阅专栏

本文介绍了如何配置Hadoop集群，包括在/etc/worker文件中设置启动虚拟机，以及基本的Hadoop命令操作如运行MapReduce程序、文件操作。通过localhost:9870进行监控，并讨论了HDFS的特点。此外，提到了系统配置问题，如防火墙、稳定性及配置文件的影响。最后，给出了Debian环境下配置maven和java的步骤。

摘要由CSDN通过智能技术生成

1. 集群的配置

在/ect/worker文件中输入你协同启动的hadoop虚拟机
可以同时在本地和其他的端口处启动。

2. 基本使用

运行mapReduce程序

进入这个文件加
cd /usr/local/hadoop/share/hadoop/mapreduce
执行以下命令
hadoop jar hadoop-mapreduce-examples-3.1.1.jar pi 10 10

文件操作

# 和基本的shell语法差不多只不过多了hadoop和fs而已
hadoop fs -mkdir /itcast
hadoop fs -put zookeeper.out /itcast
hadoop fs -fs ls /
hadoop fs rm /itcast zookeeper.out

使用localhost:9870进行操作

3. 总结

HDFS是一个文件系统
有目录树结构和linux相似，分文件，文件夹
上传一个小文件也很慢

问题

为什么配置文件都不，结果可以使用ssh 中的 scp直接将Hadoop或者java上传到
Debain如何配置maven和java~~删除线格式~~
编辑~/.bashrc文件增加以下内容
如果不能运行：
1. Linux的防火墙没有关闭
2. 系统不稳定
3. 系统处于安全模式：hadoop dfsadmin -safemode leave
4. mapred-site.xml文件配置不合适。
为什么首先请求YRAM
先Map后Reduce
适合处理小数据量的程序吗？为什么?

# java
JAVA_HOME=/usr/local/jdk1.8
PATH=$PATH:$JAVA_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME
export CLASSPATH
export PATH

# 自定义环境变量设置
# maven
M2_HOME=/opt/apache-maven-3.6.0
PATH=$PATH:$M2_HOME/bin
export M2_HOME
export PATH