大数据
幺零小柒
这个作者很懒,什么都没留下…
展开
-
《Flink基础教程》阅读小记
流数据更真实地反映了我们的生活方式。“数据流”是指由连续数据组成的流;“流数据”是指数据流中的数据。Lambda架构:1.通过批量MapReduce作业提供了虽有些延迟但是计算结果准确的计算。2.通过流处理将最新数据的计算结果初步展示出来。Lambda架构需要对同样的业务逻辑进行两次编程,一次是批量计算,一次是流式计算。Flink将批处理视作一种特殊的流处理。我们需要观察和分析连续事件...原创 2018-09-18 09:02:05 · 1953 阅读 · 0 评论 -
《离线和实时大数据开发实战》阅读小记
数据产生到消费的四大过程:数据产生、数据采集和传输、数据存储处理以及数据应用。at least once意味着每条消息会进行多次传输尝试,至少一次成功,即消息传输可能重复但不会丢失;exactly once的消息传输机制是每条消息有且只有一次,即消息传输既不会丢失也不会重复。...原创 2019-04-09 23:11:21 · 297 阅读 · 0 评论 -
《Kafka权威指南》阅读小记
cat > test.txt << EOF:往test.txt写入内容,EOF表示结束。不要让消费者的数量超过分区的数量,会导致一部分消费者闲置。为每一个需要获取一个或多个主题全部消息的应用程序创建一个消费者群组,然后往群组里添加消费者来伸缩读取能力和处理能力,群组里的每个消费者只处理一部分消息。一个消费者使用一个线程。消费者需要通过轮询...原创 2019-05-10 18:29:39 · 318 阅读 · 0 评论