做一下笔记,以后在安装可以再用
Hadoop之父Doug Cutting
Lucence
全球第一个开源的全文检索引擎工具包
完整的查询引擎和索引引擎
部分文本分析引擎
开发人员可在此基础上建立完整的全文检索引擎
Nutch
开源的基于Lucence的网页搜索引擎
加入了网页抓取、解析功能
类似于谷歌的商业搜索引擎
谷歌的论文
Google File System
Mapreduce:Simplfied Data Processing on Large Clusters
版本有五个分支
0.20.1分支:稳定版是1.2.1
0.21.0
0.22.0
0.23.0(第二代)
2.0.0-a:第一个稳定版2.2.0,最新稳定版是2.7.x
为了初学者,首先使用第一版的Hadoop来学习。也就是1.2.1
1、下载
2、
设置环境变量
设置用户路径
export HADOOP_HOME=/home/dh/usr/hadoop/
export PATH=/home/dh/usr/hadoop/bin:${PATH}
修改配置文件
修改conf/hadoop.env.sh下的java路径
3、修改SSH免密码登录
默认没有安装ssh
sudo apt-get install openssh-server
普通用户终端下:
ssh-keygen //生成空口令对
ssh-keygen -t rsa -P
一路回车
将生成的公钥id_rsa.pub 内容追加到authorized_keys
cat id_rsa.pub >> authorized_keys