127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
Hadoop-0.20.2下载:
http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/
1. 配置/etc/hosts文件,例如:127.0.0.1 localhost 主机名
2. 配置hadoop-env.sh,配置jdk
3. 配置hadoop的conf目录的core-site.xml、hdfs-site.xml和mapred-site.xml
4. 配置ssh免密码连入,ssh-keygen -t rsa
5. 格式化namenode,bin/hadoop namenode - format
6. 启动hahoop,bin/start-all.sh
usr/hadoop-0.20.2/data
虚拟机内存一般分配1G、硬盘分配20G
esxi
Cygwin windows模拟nuix或者lunix环境
lucene nutch是lucene的微缩版
Hadoop的高度如下(2012-8-25):
1. 实现云计算的事实标准开源软件
2. 包含数十个具有强大的生命力子项目
3. 已经能在数千节点上运行,处理数据量和排序时间不断打破世界记录
HBase(nosql数据库非关系型) Pig Hive(理解为关系型数据库) Chukwa
MapReduce HDFS ZooKeeper
Core Avro
HDFS重要进程:
Namenode(名称节点)是hadoop的核心之一
Secondary Namenode(辅助名称节点)
DataNode(数据节点)
JobTracker(工作跟踪器)
TaskTracker(任务跟踪器)
hadoop三大核心
MapReduce、HDFS、Bigtable
书:实战hadoop
HDFS的可靠性
1. 冗余副本策略
2. 机架策略
3. 心跳机制
4. 安全模式
5. 校验和
6. 回收站
7. 元数据保护
8. 快照机制
jdk目录的bin/jps 查看运行的进程
hadoop目录的bin/start-all 启动hadoop
hadoop子项目:
Pig(hadoop客户端)
Hbase(列式数据库,NoSQL代表产品之一,与hadoop同级是顶级项目)
Hive(数据仓库工具,类似SQL)
Zookeeper(通讯协调)
sqoop(使用jdbc连入关系型数据库)
Avro(数据序列化工具)
Chukwa(有点像ETL)
Cassandra(NoSQL数据库之一,与Hbase类似),没有Hbase那么火
以下是我精心整理的文章: