↑↑↑关注后"星标"Datawhale
每日干货 & 每月组队学习,不错过
Datawhale干货
作者:牧小熊,华中农业大学,Datawhale原创作者
0. 前言
分布式并行编程可以大幅提高程序性能,实现高效的批量数据处理。分布式程序运行在大规模计算机集群上(廉价的服务器),可以并行执行大规模数据处理任务,从而获得海量的计算能力。因此目前常用的大数据软件都可以部署在分布式计算环境种。
关于大数据的概论,在前面的文章中已经详细讲解,这里就不再赘述。对于想学习大数据的同学而言,自己在家买设备显然成本过高,租用云服务器的价格也不便宜,对于初学者而言相当的不划算。
如果我们在家也想体验一下大数据软件分布式计算的感觉,那就动手一起来搭建吧!
1. 安装VirtualBox
为了体验分布式的计算环境,就需要有多台设备,但是家用一般也只会有1台物理机器,想体验分布式计算就需要使用虚拟机搭建多个虚拟电脑。
这里我们推荐VirtualBox软件来搭建虚拟机
链接:https://link.zhihu.com/?target=https%3A//www.virtualbox.org/
进入到VirtualBox的页面 点击Download,根据自己的电脑选择相应的版本
安装好VirtualBox后的界面
2. 配置虚拟环境
实际的大数据架构一般都会部署到linux系统上,因此对于虚拟机的操作环境我们选择了界面做的不错的Ubantu的操作系统。
点击新