Hadoop入门笔记

hadoop 1.安装 VM 2.网络配制(桥连接(可以与外部连接), 共享连接(只能本机与VM之间连接)) 远程连接hadoop环境: 1.与hadoop环境的主机是连接的(使用ping命令) 2.hadoop环境的主机安装ssh服务器 3.使用远程连接客户端连接操作(使用SecureCRT或putty) 环境准备: 1.jdk1.7以上版本 2.hadoop 3.jdk, hadoop环境变量配制 4.主机名(改为master) 5.主机名解析(/etc/hosts) 6.删除hadoop_home(镜像中是/mysoftware/hadoop-2.6.4)下的 dfs, tmp, logs(如果是新安装不需要操作, 使用镜像时需要操作) 7. 格式化 hadoop, 在hadoop_home下 bin/hdfs namenode -format hadoop: 进程 hadoop是集群环境, 主/从结构 分布存储(hdfs): 主机上: namenode :存储的是元数据(不存储真实数据) secondarynamenode : 辅助namenode 从机上: datanode : 存储的是数据块(128M为一块) 启动: 1. [code lang="js"] sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode [/code] 2. [code lang="js"] sbin/start-dfs.sh [/code] hdfs web ui ==> http://ip:50070/ http://ip:50090/ 分布运算(mapreduce): 主机上:resourcemanager : 资源调度 从机上:nodemanager : 数据处理管理 (map: 把数据拆分成key value的格式提供给reduce处理, reduce把数据合并成 key value的格式输出) 启动: [code lang="js"] 1. sbin/yarn-daemon.sh start resourcemanager sbin/yarn-daemon.sh start nodemanager [/code] 2. [code lang="js"] sbin/start-yarn.sh [/code] mapreduder web ui ==> http://ip:8088 做一个单词统计案例: 1.上传要运算的数据到 hdfs上 [code lang="js"] bin/hdfs dfs -put ~/hadoopdata/* /in [/code] 2.运算 [code lang="js"] bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordcount /in/ /out [/code] 3.查看结果 [code lang="js"] bin/hdfs dfds -cat /out/* [/code] 4.查看mapreduce运算过程 启动 histroyserver : [code lang="js"] sbin/mr-jobhistory-daemon.sh start historyserver [/code]

转载于:https://my.oschina.net/u/3090863/blog/796324

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值