网络流量大数据分析平台(1)
本系列文章用来记录搭建网络流量大数据平台的过程,后续可能还会写关于做流量分析的部分。
废话不多说,直接开始。
一、项目需求
本项目旨在构建一个网络全流量大数据分析平台的核心子系统,承载着网络流量数据的实时在线处理、持久化存储和检索、分布式数据挖掘等方面大数据存储和计算能力的平台支撑和数据应用。
二、系统架构
总体架构图如下:
使用的软件版本如下:
三、系统功能
因为流量采集使用了一个开源工具,对流量进行了初步的协议解析,所以传入我们系统的是两种流量数据:已知协议数据、未知协议数据。
- 已知协议:数据源直接传给我们解析后的Json格式文件。包括的已知协议有HTTP, HTTP/2, SSL, TLS, SMB, DCERPC, SMTP, FTP, SSH, DNS, Modbus, ENIP/CIP, DNP3, NFS, NTP, DHCP, TFTP, KRB5, IKEv2, SIP, SNMP, RDP, RFB, MQTTHTTP, HTTP/2, SSL, TLS, SMB, DCERPC, SMTP, FTP, SSH, DNS, Modbus, ENIP/CIP, DNP3, NFS, NTP, DHCP, TFTP, KRB5, IKEv2, SIP, SNMP, RDP, RFB, MQTT等。
比如DNS的Schema如下:
2.未知协议
未知协议这边流量采集后直接传原始的Pcap包,所以需要我们自己解析成对应格式,这个格式就需要根据后续的流量分析确定,可能是从flow的角度来分析,也有可能是session。
总结一下,数据源传过来两种数据,我们系统的功能就是去实时解析处理并且持久化入库。
下一步介绍一下相应的数据流业务…