- 最近
- 文章
- 代码仓
- 资源
- 问答
- 帖子
- 视频
- 课程
- 关注/订阅/互动
- 收藏
搜TA的内容


搜索 取消
前一篇文章《HDFS和Hbase误删数据恢复》主要讲了hdfs的回收站机制和Hbase的删除策略。根据hbase的删除策略进行hbase的数据表恢复。本文主要介绍了hdfs的快照原理和根据快照进行的数据恢复。
spark streaming如何更好的计算关系型数据库中数据?
答:
官网上看到Spark Streaming内置就支持两类数据源,
1) 基础数据源(Basic sources): StreamingContext API就可以直接调用。这类源主要有file systems(HDFS), socket connections, and Akka actors,Queue of RDDs(测试用)。
2) 高级数据源(Advanced sources): Kafka, Flume, Kinesis, Twitter, etc.调用这些源需要加载外部依赖程序包。
如果想加载除上面之外的数据源,需要自己实现Receiver接口,自定义Receiver可以参考:
https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streaming/CustomReceiver.scala
回答问题 2015.08.19



