青云和阿里云一样,都是云服务提供商,能为我们提供强大的云端数据存储和处理能力,同时也有很多针对特定应用场景的产品解决方案,收费也合理。接下来我们介绍一下第一次如何使用青云提供的qing MR集群,如何从本地上传数据到集群中?如何运行Spark应用程序?如何使用xshell进行远程登陆?
青云MR介绍
MR就是将主流的大数据存储和处理的技术进行了整合集成,并部署在云端,方便用户随时随地使用。
申请青云MR
- 登陆青云账号,选择好服务区。因为后面集群集成青云对象存储时对服务区有要求,所以建议选上海和北京。
- 创建MR集群
按照官方MR文档创建好集群。
创建好集群好后,点击紫色框中的电脑图标登陆客户端节点的远程命令行桌面,
账号:ubuntu 密码:p12cHANgepwD ,root账号的密码也是p12cHANgepwD,登陆root账户成功截图如下:
上传数据到集群中
按照MR官方文档,MR集群可以和QingStor对象配合使用。
首先我们先按照QingStor官方文档创建QingStor对象存储,
创建完毕后就可以从本地上传数据到对象存储中,
上传完毕后进入到MR集群参数配置页面,配置对象存储参数:
根据文档,我们还需要access_key 和 secrt_key,这需要去个人中心里面创建一个,创建好后系统会提示将相关密钥文件下载到本地,文件里面就是你的access_key 和 secrt_key信息。
将得到的access_key 和secrt_key填如对应参数框内,同时开启集成对象存储并指定对象存储分区。
然后再按官方文档,将对象存储中的文件下载到客户端节点上,
案例演示:
运行Spark程序
在集群上运行Spark程序有多种方式,我们使用spark-submit提交jar包运行。如果需要依赖第三方的jar包,可以在本地打包时把第三方jar包直接打一起。将打好包的jar包上传到对象存储,然后再传输到客户端节点。spark有多种运行模式,自己按需选择,下面是官方的提交示例:
如果在运行的时候需要通过web ui查看运行情况还需要配置vpn,这样就可以通过内网ip直接访问ui界面了。
- 申请一个公网IP
计费模式和带宽上限看实际需求,IP组就选bgp多线,绑定方式选外部绑定,ICP备案选不需要。
申请成功后选中公网iP后右键,选择添加到VPC网络,VPC网络选MR集群所在的那个。
2.配置VPC网络,有关OpenVPN怎么设置参考VPN官方文档。开启openVPN服务后一定记得添加一个openVPN账户,这个账户就是通过openVPN软件连接VPC网络的账号。
安装好openVPN后登陆,账号密码就是自己刚刚设置的。
- 登陆之后就可直接通过内网ip直接访问集群ui界面,查看程序运行状况了。
配置ssh远程登陆
青云提供的远程命令行桌面很不友好,我们选择Xshell软件配置一个远程登陆。直接选择使用用户账号和密码登陆,不使用SSH密钥。因为登陆集群客户端节点好像不支持SSH密钥远程登陆。