首先声明一下,这个是本人在上课和自学hadoop时的经验和遇到的问题,包括很多部分,以后会更新更多的内容,比如hive kafka 等,几乎囊括了所有的hadoop组件。后续还会更新一些hadoop以外的大数据知识,希望大家一起学习一起进步。如遇侵权,请联系删除。
(1)这一篇组要讲了虚拟机的搭建,网络主机名配置,虚拟机之间的免密登录,notepad++使用
接下来就步入正文
首先要了解一下hadoop是什么,当初在我刚接触hadoop的时候我也很迷茫,后来在上课学习到了linux系统之后,我才渐渐对hadoop有了了解,用我自己的话来理解就是apache开发的一个大数据集成平台,在上面可以兼容很多的组件,利用mapreduce(后文简称mr)计算和hdfs来进行存储,对大数据的海量数据处理十分方便。
搭建hadoop集群环境
要使用这个工具首先需要搭建这个环境,我的hadoop是在linux的系统下运行的
这就需要用到虚拟机了 。
一安装linux
通过安装包进行vmware的安装
我这里是安装的vm15.0,当然大家其他版本可以,我会以百度网盘连接的方式把这些分析给大家
http://链接:https://pan.baidu.com/s/1gNrpPtg1fsz6A4AK4nWuIg?pwd=1234 提取码:1234
安装密码
ZC10K-8EF57-084QZ-VXYXE-ZF2XF
(软件仅供自己学习用,请勿移做他用)
安装完这些之后就需要为虚拟机加一个镜像centos才能使用,下面是镜像下载地址
http://链接:https://pan.baidu.com/s/1YjjPrPLN3ZjEd20nnBihxQ?pwd=1234 提取码:1234
安装一个虚拟机
二网络配置
这里得网络配置十分重要,关系到后面的虚拟机网络配置和host文件配置
尤其是子网配置