Hadoop平台搭建和大数据分析
Hadoop概念简介
Hadoop是由Apache研发的开源分布式基础架构,它由Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)及一些相关项目组成。其中,HDFS具有高容错性,负责大数据存储;MapReduce则负责对HDFS中的大量数据进行复杂的分布式计算。其中,HDFS 具有高容错性,负责大数据存储:MapReduce则负责对HDFS中的大量数据进行复杂的分布式计算。Hadoop作为分布式架构,采用“分面治之”的设计思想:将大量数据分布式地存放于大量服务器上,采用分治的方式对大数据进行分析。在这种思想的驱使F ,Hadoop实现了MapReduce的编程范式。其中,“Mp”意为映射,其工作是将一个健值对分能为多个你对通过上工作原现Munkdu发现了将大数据工作外分为多个小现据数易任务在大量服务器上分布式处理。
Hadoop作为分布式架构,采用“分而治之”的设计思想:将大量数据分布式地存放于大量服务器上,采用分治的方式对大数据进行分析。在这种思想的驱使下,Hadoop实现了MapReduce的编程范式。其中,“Map” 意为映射,其工作是将-个键值对分解为多个键值对; “Reduce” 意为归约,其工作是将多组键值对处理合并后产生新的键值对写人HDFS.通过上述工作原理,MapReduce实现了将大数据工作拆分为多个小规模数据任务在大量服务器上分布式处理。
构建实验环境
实验环境说明:
本次实验需要的环境为一台master节点和两台slave节点,实验可用环境为virtualbox和VMware workstation两个。如果只是一次性实验,推荐virtualbox来做,如果是VMware workstation的话,相对于盒子有个好处是可以快照,避免出错和保险自救,而盒子呢就是只能保存系统备份,功能上自认为相对不足,如果一定要用盒子,可以放在win10虚拟机里来跑,也相当于模拟了物理机了
此前环境搭建的一个相关的文章链接:
https://blog.csdn.net/qq_50785772/article/details/109824954
网络配置
- Master机器上
查看当前网络地址 IP addr show
- 启动Host-Only的网卡
命令如下:
sudo vi etc/network/inerfaces
sudo vim etc/network/inerfaces
3.将以下写入文件配置:
Auto ensp0s8
Ifcae ensp0s8 inet static
Address 192.168.56.1
Netmask 255.255.255.0
将其保存后
4. 测试连通性
ping 百度www.baidu.com,之后ping通完成初步网络连通性测试
Slave
5. 各个节点直接相互通信:
Slave ping master
Master ping slave
slave2
Ping baidu
Slvae ping matser
自此完成网络配置