第4章基于OpenSOC的机器学习框架

玛丽有只小绵羊

已于 2022-09-30 22:57:34 修改

阅读量951

点赞数

文章标签： java 开发语言

于 2022-09-25 23:48:52 首次发布

本文链接：https://blog.csdn.net/lieslyang/article/details/127045576

版权

Web安全专栏收录该内容

12 篇文章 0 订阅

订阅专栏

4.1 OpenSOC框架

OpenSOC是思科公司2014年在BroCon大会上公布的开源项目，存储使用的是Hadoop，实时索引采用Elasticsearch，在线实时分析使用的是Storm。它主要由数据源系统、数据收集层、消息系统层、实时处理层、存储层、分析处理层组成。

OpenSOC主要功能包括：

（1）可扩展的接收器和分析其，能够监视常见数据源。

（2）支持对数据流的异常检测和基于规则实时告警。

（3）支持使用Elasticsearch实现自动化实时索引数据流。

（4）支持使用Hive，利用SQL查询存储在Hadoop中的数据。

（5）能够兼容ODBC/JDBC和继承已有的分析工具。

（6）具有丰富的分析应用且能够集成已有的分析工具。

（7）支持自动生成报告和异常报警。

（8）支持原始网洛洛数据包的抓取、存储、重组。

4.2 数据源系统

数据源系统指的是数据分析时使用的数据，也可以理解为系统支持的数据格式。常见的数据源包括网络流量、文件、Syslog、SNMP和数据库等。

1.网络流量

网络流量是最常见的数据源之一，主要分为网络全流量和Netflow两种。

网络全流量包含完整的网络数据，包含TCP/IP协议栈的数据，比如MAC头、IP头、TCP头、HTTP头以及HTTP载荷数据，对于分析网络中的攻击行为帮助非常大。

常见的网络全流量获取方式为交换机镜像、分光镜和网络分流器3种。

交换机镜像是成本低廉、操作简单的方法，普遍应用于网络排障、简单流量分析与监控。

分光器是广泛使用的流量复制手段。分光器的基本原理是，通过精密的光纤生产工艺从物理层面将一束光分成两束，从而达到流量复制的目的。

分光器成本低廉，并且特性稳定，是大型网络中流量复制的首选方案。但是也有其局限性，比如当光衰过大时无法使用。另外，如果网络中存在一定的电口链路，也是无法使用分光器进行流量复制的。这个时候就需要使用专用的流量复制设备——网络分流器（Network Tap）。

Netflow提供网络流量的会话级视图，记录每个TCP/IP事务的信息。也许它不能像全流量镜像那样提供网络流量的完整记录，但是当汇集起来时，它更加易于管理和阅读。

Netflow流量统计数据不同版本具有一定的差别，常见的版本包括数据流时戳、源IP地址和目的IP地址、源端口号和目的端口号、输入接口号和输出接口号、下一跳IP地址、信息流中的总字节数和信息流中的数据包数量。

2.文件

文件是数据最基本的保存形式，常见的有CSV、XML、JSON、电子表格以及各类日志文件，比如Linux的系统日志、Apache的访问日志等。

3.Syslog

Syslog是在一个网络中转发系统日志信息的标准，它是由美国加州大学伯克利软件分布研究中心开发的，目前已成为工业标准协议，可用它记录设备的日志。Syslog记录系统中的任何事件，管理员可以通过查看系统记录随时掌握系统状况。系统日志通过Syslog进程记录系统的有关事件，也可以记录应用程序运作事件。通过适当配置，还可以实现运行Syslog协议的机器之间的通信。通过分析这些网络行为日志，可追踪和掌握与设备和网络有关的情况。

Syslog协议属于一种主从式协议，发送端会传送出一个小的文字讯息（小于1024字节）到Syslog接收端。常见的网络设备、安全设备以及发现性版的Linux系统都默认支持把日志以Syslog形式发送出来。

4.SNMP

SNMP是基于TCP/IP协议族的网络管理标准，是一种在网络中管理网络节点（如服务器、工作站、路由器、交换机等）的标准协议。SNMP能够使网络管理员提高网络管理效能，及时发现并解决网络问题以及规划网络的增长。网络管理员还可以通过SNMP接收网络节点的通知消息以及告警事件报告等来获知网络出现的问题。

SNMP管理的网络主要由3部分组成，被管理的设备、SNMP代理、网络管理系统（NMS）。

网络中每一个被管理的设备都存在一个管理信息库（MIB），用于收集并储存管理信息。通过SNMP协议，NMS能获取这些信息。被管理设备又称为网络单元或网络节点，可以是支持SNMP协议的路由器、交换机、服务器或者主机等。SNMP代理是被管理设备上的一个网络管理软件模块，拥有本地设备的相关管理信息，并可以将它们转换成与SNMP兼容的格式，传递给NMS。NMS运行应用程序来实现监控被管理设备的功能。另外，NMS还为网络管理提供大量的处理程序及必须的存储资源。

常见的网络设备都支持把日志和报警以SNMP的形式发送出来，通常把主动发送SNMP称为SNMO trap。

5.数据库

当数据保存在数据库中，并且时刻可能发生变化，这时就需要定时甚至试试从数据库中同步数据，通常基于JDBC（Java Database Connectivity）来完成这些任务。

6.爬虫

当数据保存在第三方业务系统，数据时刻可能发生变化并且无法直接访问其数据库时，可以使用爬虫通过访问API或者直接抓取网页、文件的方式进行数据获取。比如对员工邮箱异地登录进行检测时，为了排除员工出差或者外勤带来的误报，需要从ERP中定时同步员工的差旅情况以及门禁系统中员工的打卡情况，这就需要使用爬虫从ERP和门禁系统的API中爬取数据。

4.3 数据收集层

数据收集层主要收集以及初步处理获取的数据，转换成指定的格式。数据收集层常用软件包括Logstash和Flume，针对网络全流量收集还有Bro。

1.Logstash

Logstash是一款强大的数据处理工具，它可以实现数据传输、格式处理、格式化输出，还有强大的插件功能，常用于日志处理。

Logstash主要由3部分组成，包括Inputs、Filters和Outputs。

2.Bro

Bro是一款被动的开源流量分析器，主要用于对链路上所有深层次的可疑行为流量进行安全监控，为网络流量分析提供了一个综合平台，特别侧重于语义安全监控。虽然经常将它与传统入侵检测/预防系统进行比较，但Bro采用了完全不同的方法，为用户提供了一个灵活的框架，可以定制工具，深入的监控远远超出传统系统的功能。Bro的目标在于搜寻攻击活动并提供其背景信息与使用模式。它能够将网络中的各设备整理为可视化图形，深入网络流量当中并检查网络数据包。在机器学习框架中，Bro负责分析网络全流量镜像，还原网络协议，通过Kafka插件，将数据发送给Kafka集群。

4.4 消息系统层

消息系统是整个机器学习框架的信息告诉公路，数据的进出都依赖于它。最常使用的消息系统是Kafka。Kafa是一种高吞吐量的分布式发布、订阅消息系统。

4.5 实时处理层

实时处理层主要使用Storm，Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易，弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单，而且与同类的流式计算工具相比，Storm的性能也是非常出众的。

4.6 存储层

4.6.1 HDFS

Hadoop分布式文件系统（HDFS）被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点，但同时它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

4.6.2 HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统。Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据。Google Bigtable利用Chubby作为协同服务，而HBase利用ZooKeeper。

4.6.3 Elasticsearch

Elasticsearch是一个基于Lucene的搜索服务，它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful的Web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。Elasticsearch设计用于云计算中，能够达到实时搜索，且稳定可靠、快速、安装使用方便。

1.安装Marvel

2.运行Elasticsearch

4.7 分析处理层

1.Spark

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架。Spark拥有Hadoop MapReduce所具有的优点，但不同于MapReduce的是，Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使Spark在某些工作负载方面表现得更加优越，换句话说，Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark是在Scala语言中实现的，它将Scala用作其应用程序框架。与Hadoop不同，Spark和Scala能够紧密集成，其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。

Spark之所以在机器学习方面具有得天独厚的优势，主要原因是机器学习算法一般都有很多个步骤迭代计算过程。机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止，迭代时如果使用Hadoop的MapReduce计算框架，每次计算都要读/写磁盘以及任务启动等工作，这会导致非常大的I/O和CPU消耗。而Spark基于内存的计算模型天生就擅长迭代计算，多个步骤计算直接在内存中完成，只有在必要时才会操作磁盘和网络，所以说Spark正是机器学习的理想的平台。MLlib（Machine Learning lib）是Spark对常用的机器学习算法的实现库，同时包括相关的测试和数据生成器。MLib目前支持4种常见的机器学习问题：分类、回归、聚类和协同过滤。MLib基于RDD，天生就可以与Spark SQL、GraphX、Spark Streaming无缝集成。

2.Tensorflow

Tensorflow是一个采用数据流图，用于数值计算的开源软件库。节点在图中表示数学操作，图中的线则表示在节点间相互联系的多维数据数组，即张量。

4.8 计算系统

1.GPU

GPU（Graphics Processing Unit），起初设计用于计算机的图像渲染，具有成千上万的计算单元进行并行计算，在矩阵运算和数值计算方面具有独特优势，特别是浮点和并行计算上能优于CPU性能数十甚至数百倍。

工业与学术界的数据科学家已将GPU用于机器学习以便在各种应用上实现开创性的改进，这些应用包括图像分类、视频分析、语音识别以及自然语言处理等等。GPU已经成为数据科学家处理大数据的必备。

2.TPU

TPU是谷歌专门为加速深层神经网络运算能力而研发的一款芯片，它通过优化片外内存访问，使用低运算精度以及使用脉动式数据流大大提高了运算能力，比GPU、CPU组合快15-30倍。

4.9 实战演练

玛丽有只小绵羊

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第4章基于OpenSOC的机器学习框架

OpenSOC是思科公司2014年在BroCon大会上公布的开源项目，存储使用的是Hadoop，实时索引采用Elasticsearch，在线实时分析使用的是Storm。它主要由数据源系统、数据收集层、消息系统层、实时处理层、存储层、分析处理层组成。（1）可扩展的接收器和分析其，能够监视常见数据源。4.1 OpenSOC框架。
复制链接

扫一扫