hadoop 1.安装 VM 2.网络配制(桥连接(可以与外部连接), 共享连接(只能本机与VM之间连接))
远程连接hadoop环境: 1.与hadoop环境的主机是连接的(使用ping命令) 2.hadoop环境的主机安装ssh服务器 3.使用远程连接客户端连接操作(使用SecureCRT或putty)
环境准备: 1.jdk1.7以上版本 2.hadoop 3.jdk, hadoop环境变量配制 4.主机名(改为master) 5.主机名解析(/etc/hosts) 6.删除hadoop_home(镜像中是/mysoftware/hadoop-2.6.4)下的 dfs, tmp, logs(如果是新安装不需要操作, 使用镜像时需要操作) 7. 格式化 hadoop, 在hadoop_home下 bin/hdfs namenode -format hadoop: 进程
hadoop是集群环境, 主/从结构 分布存储(hdfs): 主机上: namenode :存储的是元数据(不存储真实数据) secondarynamenode : 辅助namenode 从机上: datanode : 存储的是数据块(128M为一块)
启动: 1. [code lang="js"] sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode [/code] 2. [code lang="js"] sbin/start-dfs.sh [/code] hdfs web ui ==> http://ip:50070/ http://ip:50090/
分布运算(mapreduce): 主机上:resourcemanager : 资源调度 从机上:nodemanager : 数据处理管理 (map: 把数据拆分成key value的格式提供给reduce处理, reduce把数据合并成 key value的格式输出)
启动: [code lang="js"] 1. sbin/yarn-daemon.sh start resourcemanager sbin/yarn-daemon.sh start nodemanager [/code] 2. [code lang="js"] sbin/start-yarn.sh [/code] mapreduder web ui ==> http://ip:8088
做一个单词统计案例: 1.上传要运算的数据到 hdfs上 [code lang="js"] bin/hdfs dfs -put ~/hadoopdata/* /in [/code] 2.运算 [code lang="js"] bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordcount /in/ /out [/code] 3.查看结果 [code lang="js"] bin/hdfs dfds -cat /out/* [/code] 4.查看mapreduce运算过程 启动 histroyserver : [code lang="js"] sbin/mr-jobhistory-daemon.sh start historyserver [/code]
转载于:https://my.oschina.net/u/3090863/blog/796324