博主我学的一直都是Apache的开源技术搭建的大数据平台,集群节点多了,搭建过程有多繁琐谁搭谁知道!所以最近在玩用cloudera manager搭建大数据平台,听说搭建过程很方便。周末开始动手了!可是也是让我气爆了!我家10M的网速,光安装cloudera manager(用的在线安装的方式,其他当时暂时没试)就用了两天!两天啊!都是一种煎熬。然后呢,在添加主机的时候cloudera manager又要主机联网安装软件,我了个Fuck!实在受不了了!就在想能不能把cloudera repository那些软件包下载下来放到一台主机上作为局域网内所有cloudera集群的本地源,cloudera 集群所需的cloudera相关的软件包就从本地源下载,不是的就从其他软件源下载。
书归正传:先上架构图
咱们在主机m上架一个cloudera官方的镜像站点,这样可以设置局域网其他主机去cloudera官方Repository下载软件包时去找我们的主机m上的镜像站点。说白了就是欺骗局域网内想要去cloudera Repository下载软件包的主机去咱们自己架的镜像站点下载软件包,咱们不过提前把软件包都下载好了,其他主机就不用浪费网络资源再去重复下载了!
Setup1 : 在主机m上克隆cloudera Repository((http://archive.cloudera.com/cdh5/))
①安装apt-miiror工具
sudo apt-get install apt-mirror
②在apt-mirror的配置文件/etc/apt/mirror.list中设置要克隆Repository的相关信息
set base_path /data/spool/apt-mirror --设置镜像存放的目录(这个目录是自行创建指定的,没有
就自己找个目录放进去,注意该目录的磁盘空间不能太小)
set nthreads 20 --设置最多用多少线程同时下载
set _tilde 0