集群管理和分布式任务 Apache helix

这个题目写的有点大,但是我一直想写一个这方面文章,虽然我没系统学过分布式系统理论,但是接触了这么多分布式系统之后,隐约感觉这些系统有很多共通之处。现在如果我让你开发一个分布式系统,准确点叫分布式task系统,比如从kafka订阅数据,然后写到hdfs,归档。注意不光是能支持某一个topic,不只是固定的partition数目,你该怎么写?

这个需求,其实可以使用jstorm来做,写一些spout就可以了,或者弄个2层结构,spout-bolt,spout拉数据交给bolt,bolt写到hdfs。jstorm本身就是一个分布式计算系统,确切地说是一个流计算系统,任务管理,消息传输,负载均衡,容灾等,都由jstorm框架帮你完成。

那么,如果让你写一个分布式存储系统呢?分布式存储比分布式计算可能要难一点,因为涉及到更多的数据一致性问题,像hdfs,hbase,kafka其实都属于分布式存储系统,每个系统有自己的存储特点和格式,对于hbase和kafka这种更接近数据库类型的系统来讲,写数据意味着把数据交给你管理,每一条都要尽可能保证数

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值