课堂项目中实现了在AWS上搭建Hadoop集群进行数据分析,过程中间不免遇到众多问题,在此总结以供各位参考。
创建EC2实例
亚马逊AWS服务想必大家都有所了解,这里略过注册过程(为了拿student credit还是花了一番功夫)。在EC2的界面上,创建一个新的实例。
(注意下方注明了我们的服务是在哪个地区,因为在HK选择新加坡会比较快,地区页面可在右上角修改)服务器系统这里选择Ubuntu
服务器的性能配置可以选高点(因为有credit,免费的貌似会达不到Hadoop的最低要求?)
之后点Review and Launch就可以了,会显示服务器的各项信息,再点击Launch会弹出一个key pair窗口。这里我们选择建一个新的key pair,下载保存好以后就可以创建我们的第一个实例了。
稍等几分钟后实例就创建完成,Status Checks打了绿勾就可以了。但在连接服务器前,还有一步要完成。在下方的Description中,找到Security groups,把服务器的inbound 和outbond过滤规则都改成all traffic, 方便后续服务器之间的通信。
选择我们的服务器,点击上方的connet 按钮,会弹出官方指南,windows下使用putty,mac 和 linux直接在终端上连接即可。因为指南上写得已经很详细了,这里就不多赘述了。
单机安装Hadoop
以MAC为例,打开t