本书只是从全局的角度讲了一下大数据的框架,要深入还是要看具体的书籍。
- 数据产生到消费的四大过程:数据产生、数据采集和传输、数据存储处理以及数据应用。
at least once
意味着每条消息会进行多次传输尝试,至少一次成功,即消息传输可能重复但不会丢失;exactly once
的消息传输机制是每条消息有且只有一次,即消息传输既不会丢失也不会重复。
-
通过增加并发的节点来解决数据量大的问题。
-
作为新的大数据架构,数据湖采集和存储一切数据,既包含结构化的数据也包含非结构化(语音、视频等)和半结构化的数据(JSON和XML等),既包含原始数据又包含经过处理的、集成的数据。