数据湖再识
读者交流群已经开通了,有需要的可以私信进入读者交流群
前面我们说过用户需求驱动数据服务,一切新技术的诞生,时代都会赋予它特有的意义,当然数据湖也一样,数据湖作为大数据体系下的一员,时代又赋予了它什么样的意义呢?
数据[仓库] 数据[湖],既然都是数据存储的地方,又有什么不同呢 ? 下面我们将一一解答这个问题
开始之前请先阅读数据湖初识,了解一下为什么会出现数据湖
数据集成能力
数据湖需要具备完善的数据获取和数据发布能力,相比数据仓库数据湖的要求更高
数据湖需要能支撑各种各样的数据源,并能从相关的数据源中获取全量/增量数据;然后规范存储。数据湖能将数据分析处理的结果推送到合适的存储引擎中,满足不同的应用访问需求。
接入不同数据源,包括数据库中的表(关系型或者非关系型)、各种格式的文件(csv、json、文档等)、数据流、ETL工具(Kafka、Logstash、DataX等)转换后的数据、应用API获取的数据(如日志等&