一、杂谈
一直想抽时间把以前的知识梳理总结一下,孔子曰:"温故而知新",很有道理,因此无论做学问,还是做研究,一定学会总结,现在关于hadoop的书籍遍地都是,有时候都看花了眼,也不知道选择那一本适合自己。其实啊,都是一样的。无非就是知识点的深浅而已,计算机软件和其他学科不一样,它的实践性比较强,实践是检验一切真理的标准,理论再强,没有实践,也是白扯;但是有了实践,没有理论支持,也是白扯,两者缺一不可。首先咱们从hadoop的安装开始说起,来慢慢解开hadoop的棉纱,包括hadoop的分布式文件系统、mapreduce编程、分布式数据库hbase以及分布式数据仓库、mapreduce数据挖掘基础算法、大数据处理算法的设计与编程等知识。
二、安装
hadoop的主要安装方式有两种:单机安装和集群安装,首先我先从单机版开始进入正题
1、单机版
1.1软件准备
JDK1.6.0、hadoop-1.2.1
1.2 安装
JDK的安装比较简单,在此不再说明
hadoop-1.2.1的压缩包拷贝到指定目录下,使用命令tar -zxvf hadoop-1.2.1将其解压后,找到conf目录,如下图:
其中,core-site.xml主要是NameNode的ip和端口设置;hadoop-env.sh是hadoop环境变量的配置,例如jdk、hadoop安装目录的配置;hdfs-site.xml是hdfs的数据副本等参数的配置;mapred-site.xml是jobtracker IP和端口配置;master是Master节点IP的配置;slaves是Slaves节点IP的配置;下面主要说明各个文件的配置
core-site.xml配置
hadoop-env.sh配置
使用vi命令打开此文件,在文件最后添加如下配置
hdfs-site.xml配置
1.2格式化hdfs文件系统
1.3启动
进入bin目录下,使用./start-all.sh启动hadoop之后,显示启动日志,待启动完成之后可以使用命令jps查看节点是否正常启动,如下图:
到目前为止,hadoop单机版的安装已经完成。另外,您也可以管理界面,查看相关节点及map/reduce的运行情况,截图如下: