解决的问题:
- 海量数据分布式存储(HDFS)高可靠、易扩展、高吞吐量
- 海量数据的分析模型(MapReduce)通用性强、易开发、健壮性
- 资源管理调度(YARN)
google的是(GFS、MapReduce、BigTable)
hadoop1.0和2.0的一个区别是:
- 2.0多了YARN框架,把这个独立出来了。做资源管理调度的。
hadoop应用:
- 海量离线日志分析
- 在线的实时的分析
- 海量数据存储(视频的存储)
搜索引擎
存储问题的解决
文件切成小的块。放在不同的机器上。每一块都会有副本。
客户端访问的时候,不需要管是怎么存储的,只需要知道路径即可。
路径和真实的存储路径之间的映射由namenode管理。
安装
伪分布式的安装
- 1.1修改主机名
- 1.2修改IP
- 1.3修改主机名和IP地址之间的映射(通过主机名访问)
- 1.4 关闭防火墙
- 2.安装jdk(hadoop是java开发的)
- 3.安装hadoop
- 4 配置ssh免访问
$ sudo # 执行一条指令(用的root的身份)
# 第一次使用sudo的时候 ,要添加这个身份
$ su vi /etc/sudoers 加一行
tar -zxvf