hadoop入门01

最新推荐文章于 2024-09-14 17:24:50 发布

codeeeLearner

最新推荐文章于 2024-09-14 17:24:50 发布

阅读量254

点赞数

分类专栏： hadoop 文章标签：分布式

本文链接：https://blog.csdn.net/codeeeLearner/article/details/80115857

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

**linux网络配置

vim /etc/sysconfig/network-scripts/ifcfg-eth0

TYPE    = Ethernet
BOOTPROTO=static                  //静态获取IP
IPADDR = 192.168.164.xx
GATEWAY = 192.168.164.2       //网关
NETMASK = 255.255.255.0       //子网掩码
ONBOOT = yes                        //开机启动
DNS1    = 114.114.114.114

DEVICE = eth0

//重启网络服务

service network restart

**JDK,hadoop环境配置

//解压JDK和Hadoop文件

tar -xzvf file.tar.gz

//配置环境变量

vim /etc/profile

export JAVA_HOME = absolute route
export JRE_HOME = $JAVA_HOME/jre
export CLASSPATH = .:$JAVA_HOME/lib:$JRE_HOME/lib

export HADOOP_NAME = absolute route
export PATH=$PATH:$JAVE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

**hadoop-env.sh
export JAVA_HOME = absolute route

**core-site.xml

<property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
</property>

<property>
        <name>hadoop.tmp.dir</name>
        <value>/var/hadoop</value>
</property>

**hadoop命令

//启动namenode
hadoop-daemon.sh start namenode
//启动datanode
hadoop-daemon.sh start datanode
//显示当前namenode情况
hdfs dfsadmin -report | more
//namenode格式化
hadoop namenode -format
注意
(1)Hadoop的临时存储目录tmp
   即core-site.xml配置文件中的hadoop.tmp.dir属性，
   默认值是/tmp/hadoop-${user.name}，
   如果没有配置hadoop.tmp.dir属性，
   那么hadoop格式化时将会在/tmp目录下创建一个目录，
   例如在cloud用户下安装配置hadoop，
   那么Hadoop的临时存储目录就位于/tmp/hadoop-cloud目录下
(2)Hadoop的namenode元数据目录
   即hdfs-site.xml配置文件中的dfs.namenode.name.dir属性，
   默认值是${hadoop.tmp.dir}/dfs/name，
   同样如果没有配置该属性，那么hadoop在格式化时将自行创建。
   必须注意的是在格式化前必须清楚所有子节点（即DataNode节点）dfs/name下的内容，
   否则在启动hadoop时子节点的守护进程会启动失败。这是由于，
   每一次format主节点namenode，dfs/name/current目录下的VERSION文件会产生新的clusterID、namespaceID。但是如果子节点的dfs/name/current仍存在，hadoop格式化时就不会重建该目录，因此形成子节点的clusterID、namespaceID与主节点（即namenode节点）的clusterID、namespaceID不一致。最终导致hadoop启动失败。

**netstat -nltp查看端口是否开启
关闭防火墙
service iptables stop
chkconfig iptables off

**rsa加密

cd .ssh
//生成私钥id_rsa, id_rsa.pub和公钥，进行master签名
ssh-keygen -t -rsa//直接回车默认生成
//复制公钥到datanode
ssh-copy-id slave# //输入各主机密码
//查看各个节点.ssh目录是否生成authorized_keys

**配置slaves文件
ip地址 slaveName

restart hadoop

stop-dfs.sh//关闭集群
start-dfs.sh//启动集群

**web端口查看

http://master:50070
注意使用浏览器firefox或google

**hdfs命令

//把file放到dir目录下

hdfs fs -put file dir

--在web界面 Utilities->Browse the file system下可以查看（最小数据块大小128MB）

//查看指令帮助
e.g.
hdfs dfs -help ls

-ls [-d] [-h] [-R] [<path> ...] :
List the contents that match the specified file pattern. If path is not
specified, the contents of /user/<currentUser> will be listed. Directory entries
are of the form:
   permissions - userId groupId sizeOfDirectory(in bytes)
modificationDate(yyyy-MM-dd HH:mm) directoryName

and file entries are of the form:
   permissions numberOfReplicas userId groupId sizeOfFile(in bytes)
modificationDate(yyyy-MM-dd HH:mm) fileName

-d Directories are listed as plain files.
-h Formats the sizes of files in a human-readable fashion rather than a number
      of bytes.
-R Recursively list the contents of directories.

**hadoop冗余机制

/**replication决定将数据存储在多少个节点上
*若是某台机子宕机了，就将缺少的数据块复制到其它机子上
**/
<property>
        <name>dfs.replication</name>
        <value>2</value>
</property>

//recheck-interval决定多久扫描一次节点状态
<property>
        <name>dfs.namenode.heartbeat.recheck-interval</name>
        <value>10000</value>
</property>