利用Spark Streaming来实现实时的数据管道服务

现在需要搜集用户的行为记录,之前我们打算采用AWS提供的服务,大致架构是这样的:

建立一个rest来收集来自服务器或者是终端的(从手机端,网页)的数据,之后将这些数据放到 Kinesis Streaming之中,然后通过AWS的firehose将数据放到S3或者RedShift中。但是现在有两个问题,Amazon中国 目前还没有firehose这个service,二是可能打算将获取到的数据流放到HDFS或者其他地方,并且可能需要做一些比较简单的运算。考虑到效率以及拓展性,我们采用了Spark Streaming来代替firehose(关于Spark Streaming效率问题,可以参考这里​)

为什么不自己写呢?我想用这句话回答会比较好-"You can spend more time focusing on your application and less time on your infrastructure."。看你关心的层面了,做数据分析,应该把更多精力放在核心业务上。

关于Spark Streaming以及如何做集成Kinesis,可以参看官方文档:

1.Spark Streaming Programming Guide

2.Spark Streaming + Kinesis Integration

关于spark-streaming-kinesis-asl_2.10, 和spark-core会有版本冲突,下面给出我的依赖关系,供大家参考:

scalaVersion := "2.10.4"

libraryDependencies ++= Seq(
  "com.amazonaws" % "aws-java-sdk-kinesis" % "1.10.4",
  "com.amazonaws" % "amazon-kinesis-client" % "1.4.0",
  "org.apache.spark" % "spark-core_2.10" % "1.4.1" % "provided",
  "org.apache.hadoop" % "hadoop-client" % "2.6.0",
  "org.apache.hbase" % "hbase-client" % "1.0.0",
  "org.apache.hbase" % "hbase-common" % "1.0.0",
  "org.apache.spark" % "spark-streaming_2.10" % "1.4.1",
  "org.apache.spark" % "spark-streaming-kinesis-asl_2.10" %  "1.4.1"
)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值