![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据组件经验总结
嘿,兄弟,好久不见
这个作者很懒,什么都没留下…
展开
-
简单梳理hadoop、spark、storm、flink等大数据组件之间的关系
在讨论项目架构时经常会提到spark、flink等大数据组件,作为小白的我对这些组件的功能总是有些模糊,趁年底工作量不大找了些资料学习一下,在此处对所理解的内容进行大概梳理,不对的地方请大家指正。1、hadoop/spark/storm/flink1)hadoop和spark是更偏向于对大量离线数据进行批量计算,提高计算速度2)storm和flink适用于实时在线数据,即针对源源不断产生的数据进行实时处理。至于storm和flink之间的区别在于flink的实时性和吞吐量等要比storm高。上述四原创 2022-01-28 15:59:41 · 5511 阅读 · 0 评论 -
简单梳理kafka架构原理
由于最近使用到了kafka,因此在网上找了一些学习资料相要了解kafka的原理,但是看完以后过几天就会忘,在此处简单梳理一下kafka的大概架构便于回忆。1、大概架构如下图,包含主题、分区、副本等几个概念1)其中topic的作用很容易理解,类似于不同数据的分区2)topic下又包含多个分区(partition),分区的作用在于分布式存储和分布式消费以降低负载压力3)分区下又包含多个副本,包括leader副本和follow副本,其中只有leader副本与外界进行交互,follow副本只是对leade原创 2022-01-27 17:12:55 · 1290 阅读 · 0 评论