hadooop

hadooop:利用服务器集群对数据进行存储,根据用户自定义业务逻辑,对海量数据分布式计算,JAVA语言开发的
组件:
HDFS;分布式文件系统
MAPREDUCE:分布式运算程序开发框架
HIVE:SQL数据仓库工具
HBASE:基于HADOOP分布式海量数据库(可用redis,mangoDB替代)
ZOOKEEPER:分布式协调服务基础组件
Sqoop:数据库迁移工具
Flume:日志数据采集框架
YARN:资源调度系统

单机问题
存储能力问题,计算能力问题,单点故障。。。
分布式架构
master-slave主从架构
Hadoop2.0
HDFS:NameNode(主) DataNode(从)
YARN:ResourceManager(主) NodeManager(从)

LINUX环境准备:
1.修改主机名
vi /etc/sysconfig/network
2.网络
vi /etc/sysconfig/network-scripts/ifcfg-eth0(修改ip)
service network restart(重启)
3.ip和主机映射
vi  /etc/hosts
hostname
hostname xxxx(主机名)
4.关闭防火墙
service iptables status(查看防火墙)
service iptables stop(关闭防火墙)
chkconfig iptables --list (查看防火墙是否开机是否启动)
chkconfig iptables off (关闭防火墙开机自启)

JAVA环境准备:
1.上传解压jdk  
tar -zxvf jdk-8u111-linux-x64.tar.gz -C /usr/java/
2.修改环境变量
vi /etc/profile
export JAVA_HOME=/usr/java/jdk1.8.0_111
export PATH=$PATH:JAVA_HOME/bin
source /etc/profile (重新加载变量脚本)

解压hadoop安装包下目录:
sbin:启动或者停止hadoop相关服务的脚本
bin:操作hadoop相关服务(HDFS,YARN)的脚本
etc:Hadoop相关配置文件目录
share:Hadoop依赖jar和相关文档
lib:Hadoop本地库(对数据压缩解压缩功能)

配置hadoop(伪分布式),修改五个配置文件etc下
hadoop-env.xml
core-site.xml
hdfs-site.xml
mapred-site.xml

HDFS:分布式文件系统
通过命令行控制:
hdfs dfs -ls | -rm | -cat  
hdfs dfs -put 上传
hdfs dfs -get 下载

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值