本文是基于Apache Beam 2.0编写代码,调用Apache Spark 1.6.2集群,读取Mongodb数据进行相应逻辑处理的例子。
配置环境
首先通过Maven构建Apache Beam项目的依赖,不清楚的,可以去官网下载word-count-beam例子,里面基本包含了所需的依赖。然后关于Spark集群是采取独立部署模式,不再赘述,Mongodb没什么说的。
初始化
为了更好的复用代码,所以需要在执行的时候指定参数,如果不需要,可以跳过此步骤。
为了获取参数,需要新建一个类继承PiplineOptions,然后设置好Set和Get方法。参考下方代码。
public interface MyOption extends PipelineOptions {
@Description(" input Collection") //参数描述
String getInPath(); /