hadoop第一天 基本概念、伪分布式集群安装

解决的问题:

  • 海量数据分布式存储(HDFS)高可靠、易扩展、高吞吐量
  • 海量数据的分析模型(MapReduce)通用性强、易开发、健壮性
  • 资源管理调度(YARN)

google的是(GFS、MapReduce、BigTable)

hadoop1.0和2.0的一个区别是:

  • 2.0多了YARN框架,把这个独立出来了。做资源管理调度的。

hadoop应用:

  • 海量离线日志分析
  • 在线的实时的分析
  • 海量数据存储(视频的存储)

搜索引擎

存储问题的解决

文件切成小的块。放在不同的机器上。每一块都会有副本。

客户端访问的时候,不需要管是怎么存储的,只需要知道路径即可。
路径和真实的存储路径之间的映射由namenode管理。

安装

伪分布式的安装

  • 1.1修改主机名
  • 1.2修改IP
  • 1.3修改主机名和IP地址之间的映射(通过主机名访问)
  • 1.4 关闭防火墙
  • 2.安装jdk(hadoop是java开发的)
  • 3.安装hadoop
  • 4 配置ssh免访问
$  sudo   # 执行一条指令(用的root的身份)
# 第一次使用sudo的时候 ,要添加这个身份
$  su  vi  /etc/sudoers   加一行
  
 tar  -zxvf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值