无论是德国工业4.0、美国工业互联网还是《中国制造2025》,各国制造业创新战略的实施基础都是工业大数据的搜集和特征分析,及以此为未来制造系统搭建的无忧环境。以工业大数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力,围绕工业大数据展开的各类技术也在不断涌现。
在《工业大数据处理领域的“网红”——Apache Spark》一文中,我们分享了新一代轻量级大数据快速处理平台。今天,我们将继续分享另一个玩转工业大数据的技术----Kafka。
Kafka是一个高吞吐的、分布式的、基于发布/订阅的分布式流处理平台,它可以像消息系统一样读写数据流,在实时业务的场景中写可靠的流处理应用,并且能安全地存储数据流到分布式、多副本、容错的集群中,目前被广泛应用在云计算和大数据处理上。
Kafka可高效的采集以及使用数据,以此减轻各个业务系统的压力。随着Kafka应用的不断深入,越来越多的企业正使用这一便捷的工具来实现大数据的布局。
Kafka的优势特性在于:
高效处理数据,承载海量负载;
支持多种语言,可存储任何类型和格式的数据;
是一个高性能和可伸缩的系统;
可用于实时时间处理和批处理。
为了更好的介绍Kafka在实际生产环境下的应用,下面我们以实际项目为例,给大家分享格创东智利用Kafka设计出的一个非生产数据采集平台。
项目中,该工厂有一项业务需要采集非生产相关的数据。数据每8毫秒采集一次,该工厂有几百台机械臂,因而每天产生的日志文件非常大,给数据库带来十分大的压力。