再介绍了之前的hadoop以及spark的相关组件之后,就像一辆汽车一样,只有将所有的组件进行组装之后他才可以正常的上路,在公路上疾驶,今天我们就将之前的组件进行一个简单的安装
首先是油箱--分布式存储
在当今社会,数据量越来越大,就像女孩子看电视剧一样,我把你喜欢的电视剧、电影等等的视频资源全给你,一共10PB,只有一次的存储机会,那我们应该怎么存储呢?赵本山说过把一只大象存入冰箱一共需要三不,打开冰箱,放入大象,关闭冰箱,同样的,存数据也分为这么三个步骤,打开电脑,数据存磁盘,关闭电脑,但是存在一个问题,真的可以把大象放入到冰箱中吗?相对于10PB的影视资料来说,现在的个人设备是很难完成这个任务的,但是女孩子又舍不得这些帅哥怎么办,那么女生就会找几个自己的好闺蜜,把这10PB的电视剧按照类型进行分类,然后每个闺蜜的电脑上放几部,然后存放所有的数据,这就是分布式的思维,我们将大文件切割成一个个的小文件,然后部署多台服务器,每台服务器上存储一点,也就完成了数据的存储
数据存储完了之后,如果有一天想看电视剧了,可是不知道那个闺蜜的电脑上存储着我要看的电影,只能每个人的打电话去问他那里有什么电影,浪费时间跟精力,等找到之后也就没有想看的心情了,那怎么办呢?那我就可以找一个人,记录一下哪一部电视剧放在谁那里,这就是管理员,它会存储元