dataflow_Java中的Cloud Dataflow快速入门

dataflow

在你开始之前

  1. 选择或创建一个Cloud Platform Console项目。
    转到项目页面
  2. 为您的项目启用结算。
    启用帐单
  3. 启用Cloud Dataflow,Compute Engine,Cloud Logging,Cloud Storage,Cloud Storage JSON,BigQuery,Cloud Pub / Sub和Cloud Datastore API。
    启用API
  4. 安装Cloud SDK
  5. 使用Google Cloud Platform验证gcloud
    gcloud init
  6. 创建一个云存储桶:
    1. 在Cloud Platform Console中,转到Cloud Storage浏览器。
      转到云存储浏览器
    2. 点击创建存储区
    3. 在“ 创建存储桶”对话框中,指定以下属性:
      • 名称 :唯一的存储桶名称。 存储桶名称中请勿包含敏感信息,因为存储桶名称空间是全局的并且是公开可见的。
      • 储藏等级 :标准
      • 所在地 :美国
    4. 点击创建
  7. 下载并安装Java Development Kit(JDK) 1.7版或更高版本。 验证是否已设置JAVA_HOME环境变量并指向您的JDK安装。
  8. 按照适用于您特定操作系统的Maven 安装指南 ,下载并安装Apache Maven

创建一个包含Java的Cloud Dataflow SDK和示例的Maven项目

    1. 使用Maven原型插件创建一个包含Java的Cloud Dataflow SDK的Maven项目。 在您的Shell或终端中运行mvn archetype:generate命令,如下所示:
      mvn archetype:generate \
            -DarchetypeArtifactId=google-cloud-dataflow-java-archetypes-examples \
            -DarchetypeGroupId=com.google.cloud.dataflow \
            -DgroupId=com.example \
            -DartifactId=first-dataflow \
            -Dversion="[1.0.0,2.0.0]" \
            -DinteractiveMode=false \
            -Dpackage=com.google.cloud.dataflow.examples

运行命令后,您应该在当前目录下看到一个名为first-dataflow的新目录。 first-dataflow包含一个Maven项目,该项目包括Java的Cloud Dataflow SDK和示例管道。

在Cloud Dataflow服务上运行示例管道

  1. 转到first-dataflow/目录。
  2. 通过在Shell或终端窗口中使用mvn compile exec:java命令,在Cloud Dataflow托管服务上构建并运行名为WordCount的Cloud Dataflow示例管道。 对于--project变量,您需要为创建的Cloud Platform项目指定Project ID。 对于--stagingLocation--output参数,您需要指定在路径中创建的Cloud Storage存储桶的名称,例如,如果您的Cloud Platform Project ID是my-cloud-project而您的Cloud存储桶名称为my-wordcount-storage-bucket ,输入以下命令以运行WordCount管道:
    mvn compile exec:java \
          -Dexec.mainClass=com.google.cloud.dataflow.examples.WordCount \
          -Dexec.args="--project=<my-cloud-project> \
          --stagingLocation=gs://<my-wordcount-storage-bucket>/staging/ \
          --output=gs://<your-bucket-id>/output \
          --runner=BlockingDataflowPipelineRunner"
  3. 检查您的工作是否成功:
    1. 在Google Cloud Platform Console中打开Cloud Dataflow Monitoring UI。
      转到Cloud Dataflow Monitoring UI
      首先,您应该看到单词计数作业的状态为“正在运行” ,然后显示“ 成功”
  • 在Google Cloud Platform Console中打开Cloud Storage Browser。 转到云存储浏览器
    在存储桶中,您应该看到作业创建的输出文件和登台文件:

清理

为避免在此快速入门中对您的Google Cloud Platform帐户产生费用,请执行以下操作:

  1. 在Google Cloud Platform Console中打开Cloud Storage浏览器
  2. 选中您创建的存储桶旁边的复选框。
  3. 单击删除
  4. 单击删除以永久删除存储桶及其内容。

翻译自: https://jaxenter.com/cloud-dataflow-quickstart-in-java-128647.html

dataflow

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
谷歌宣布了 Cloud Dataflow,一个批量或实时处理海量数据的服务和 SDK。现在,他们开源了 Dataflow Java SDK,使开发人员可以看到它的实现方式,并合理使用该SDK开发运行在本地或其它云上的服务。 Dataflow 是一项云服务,使用了由 FlumeJava 和 MillWheel 演变而来的技术,前者是一个用于创建数据并行管道的Java库,后者是一个用于构建容错流处理应用的框架,在谷歌内部有数百名开发人员在使用它们。Dataflow是语言无关的,但谷歌提供了一个Java SDK,使开发人员为它创建应用更简单。管道是 Dataflow使用的一个关键概念,它由一组“读取输入数据源、转换数据、输出结果的操作”组成。数据组织在大小有限或无限的集合,并提交给多个“转 换(transformations)”,由它们执行计算,即操作输入集合、生成输出集合。“管道执行器(pipeline runner)”是管道的执行环境。该SDK提供了三种类型的执行器:用于本地计算机的DirectPipelineRunner,用于谷歌云平台的DataflowPipelineRunner,还有同样用于谷歌云的BlockingDataflowPipelineRunner,但它会在执行状态打印日志消息。 管道可以很简单,转换一个接一个地线性执行,或者也可以是一个复杂的有向图,转换路径先分支后合并。一个管道不能与另一个管道共享数据或转换。管道异步执行,而且为了优化整个处理过程的效率,数据流服务可以决定部分转换的执行顺序。 Dataflow 应用可以部署在谷歌云平台上,后者可以提供所需的所有基础设施,其包括提供运行代码的虚拟机、数据存储或者用于数据处理的 BigQuery机制。但开发人员也可以将这些应用部署在不同的执行环境,既可以在本地,也可以在其它云上,只要创建了相同的服务即可。 Dataflow SDK包含了示例。谷歌已经创建了一个Stack Overflow标签来回答开发人员的问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值