安全大数据的7个V——大数据基础问题与信息安全的交叉探究

最新推荐文章于 2022-06-15 14:36:57 发布

weixin_33910759

最新推荐文章于 2022-06-15 14:36:57 发布

阅读量241

点赞数

文章标签：大数据数据库操作系统

原文链接：http://blog.51cto.com/yepeng/1606456

版权

安全大数据的7个V——大数据基础问题与信息安全的交叉探究

潘柱廷

如果我们把大数据这个词作为一种新的计算理论、方法、技术和应用的综合体来看，那么我们探讨大数据与信息安全之间的关系，就有两种方向：其一，就是如何用大数据来解决安全问题；其二，就是如何保障大数据的安全。本文探讨的是前者，并且是通过对于数据根本属性的探究，通过大数据基础科学问题的探究，结合信息安全的根本原则和高端问题，探讨大数据应用于安全的科学研究和产业开发重点课题。

【那些Ｖ】

谈大数据似乎总要从所谓的“3个Ｖ”或者“4个Ｖ”谈起。自己很想免俗，却好像又没有其他更好的切入点。也许这些个Ｖ还真的就是大数据的一些根本属性，是绕不开的一些基础问题。

在大数据的V中，有些是常说的，有些是不常说的，这里总结了7个V：

——Volume，海量的数据规模；
——Velocity，快速的数据流转和动态的数据体系；
——Vast，数据来自广大无边的空间；
——Variety，多样的数据类型；
——Veracity，数据的真实和准确更难判断；
——Value，大数据的低价值密度；
——Visualize，大数据可视化的重要性。

【我们需要多大的安全大数据】

在上面的这7个V中，第1V的Volume表现的是大数据的所谓“大”的状态。

现在信息安全领域的常规市场和应用中，所遇到的数据量还都到不了当前大数据所谓的PB级；TB级数据都是比较少的处理对象。而在城域网监控、网络宏观态势感知等应用中，其实已经积累并且继续不断增加着大量的数据，将是大数据方法的重要用武之地。

【时间轴上的安全大数据】

Velocity所代表的时间范畴，是大数据的重要来源。

在当前常规的信息安全产品中，特别是具有代表性的检测响应类产品技术中，大量采用实时检测；所谓“实时”当然体现了“快速”的内涵。而在带宽越来越大、系统越来越复杂，采集数据越来越多的同时，安全检测对于时间响应的即时性要求并没有减弱。如果对于源源汹涌而来的数据不能及时处理，就将被数据淹没 (DoS)。这就需要实时或准实时分析系统中采用更多的“流计算”方法。（流计算是区别对比于批量计算的方法）

课题：流计算在安全分析中的应用。

另外，“实时”常常还隐含着一个缺省的意思——主要根据当前数据（或者数据缓存）作出分析判断，也就是说不大量保存长时间的原始数据（或者说时间窗口比较窄）。而安全事件及其原因本身具有很长的时间跨越性（APT就是跨越长时间的缓慢***模式），这逼迫我们要存储更长时间的日志和网络流等原始数据；而当我们开始存储更长时间的数据时，也发现了这些动态数据流通过“存储”而变成了静态的数据块，于是并行计算、异步计算以及一些智能算法等就可以被应用于其上了。

我们分析一些IT架构模型：比如Zachman将一个IT系统分成数据、功能、人、网络、时间和动机等六个方面；再比如DOSH视角将一个IT系统分成数据、操作、系统和人四个方面。说一个很哲学化的结论：“所有的IT系统要素中，只有数据是能够穿越时间的”。其他要素如功能、系统、人、网络、操作等等都只能存在于当下；只有数据天然就是可以从过去留存到现在，并且可以从当下延续到以后。所以，任何一个以数据为核心的方法和技术，都要在时间延展上下功夫。所谓时间延展，说得直白一点就是要在（英文同是Memory的）存储和记忆上下功夫。

课题：流数据的高速存储和分析问题（存储结构与分析方法具有深度关联）

【空间上的安全大数据】

Vast所代表的空间范畴，是大数据的三个重要来源之一。也就是从更多的空间位置采集大数据。

任何一个***过程、任何一个安全事件蔓延过程都会涉及很多空间位置和空间范围，没有哪个安全问题是孤点问题。那么在对一个多空间点的安全事件对象，要进行更加充分的分析和发现，当然是获得更多空间位置的采集数据会更好。数据采集点的增加当然会线性地增加安全分析的数据量。而如果每个数据采集点所采集的数据也比较大的话，那就更成为了一个分布式大数据问题。

在空间范围内传输大数据是一个必须回避的操作，这样的传输会给网络带来灾难性的性能压力。或者说根本不能考虑大数据的传输，而只能考虑将计算移动到数据旁边，也就是要进行分布式存储和分布式计算。这里面一个根本的问题就是，“一个全局性安全问题是否可以分解为多空间位置的局部计算，而各个空间位置的局部计算解经过合并后，所得到的综合解是有效的全局解。”

课题：安全数据分析的分布式存储、分布式计算和空间关联

【多样性的安全大数据】

Variety所代表的数据多样性，也是大数据的三个重要来源之一。也就是从更多样的数据形态中获得大数据。

当前信息安全市场中的主流产品，基本上都是单一数据类型的检测工具。

产品	被分析和处置数据的类型
漏洞扫描	发向目标系统所返回的数据
防火墙、IDS/IPS、UTM、病毒防火墙等	网络链路上的通用网络数据流
Web应用防火墙（WAF）、数据库审计等	网络链路上的专门网络数据流：WAF对应的是Web访问流；基于网络的数据库审计对应的是Web服务器和数据服务器之间的网络流。
防垃圾邮件系统	邮件包
日志审计	服务器产生的日志
终端安全产品	终端系统的日志、配置、操作痕迹等。
安全管理平台（SIEM安全信息与事件管理）	各种设备和安全产品所产生的事件类数据（包括日志），经过范化(Normalization)后汇集到安全管理平台中。

从上面这个表格看到，大部分安全产品所处置的数据确实都比较单一。而现实中的任何一个安全事件都是有丰富数据痕迹的，如果能够综合多样化的数据，应当可以获得更加准确和深入的分析结果。而且，当前信息安全检测方面的两个高端问题：APT检测问题、网络宏观态势感知与预测问题，也必须通过多样化的数据才可能有效地解决。

什么是所谓的“数据多样性”？其实就是数据的“结构”多样性。一个安全事件行为所留下的各种各样的痕迹，是难于用少数几种结构来概括的。如果要强行进行数据格式的范化和归一化，则必然会丢失多样性数据所蕴含的丰富内容，从而丢失关键信息。所以，传统的安全管理平台的数据收集、范化和关联分析方法，难于获得令人满意的安全价值也就不奇怪了。

大数据方法所针对的一个重要问题就是所谓“非结构化”问题或者“半结构化”问题。其实，没有哪个数据是没有结构的，每个数据都是“结构化”的，只不过这个所谓“非结构化”的“结构化”不是我们容易处理和分析的结构，不是我们常用的 “二维表结构”（以关系数据库处理系统为核心）。比如，网络数据流是天然的延时间轴展开的流结构，最适合播放操作；一个网络区域中各个系统之间的连接关系是一个图论中的网结构；而不同系统所产生的多样化日志是一些格式互不相同的二维表结构。

大数据方法的一个突出代表就是NoSQL类型的数据存储与检索分析。尽力保留大量数据的原始形态，以此为基础进行后续的分析和处理。在信息安全市场中，市场份额最大的就是部署在网络链路上的网关和旁路检测产品，这些产品都是对网络流进行分析的，那么网络流的原始数据留存和快速分析将是躲不过去的关键课题。

课题：网络流安全数据的原始数据留存和快速数据分析视图

【好不好的安全大数据】

再说一句很哲学的话：“所有的IT系统要素中，只有数据是可以伪造和臆想”。其他的要素功能、系统、人、网络、操作等等，也许一个会像另一个，但是每个都只能是自己。只有数据天然就是可以被修改、被伪造，并且可以无中生有。所以，数据有好坏问题，而这个好坏问题在大数据中会更加极端地被放大。

所以大数据的Veracity真实和准确问题，是在“量”的性能问题之外所面临的最难的问题。更泛的表达这个话题就是数据的“质”——数据质量问题。在《数据质量工程实践》一书中，谈到了数据质量的12个维度很值得借鉴：

1. 数据规范(data specification)
2. 数据完整性准则(data integrity fundamentals)
3. 重复(duplication)
4. 准确性(accuracy)
5. 一致性和同步(consistency and synchronization)
6. 及时性和可用性(timeliness and availability)
7. 易用性和可维护性(ease of use and maintainability)
8. 数据覆盖度(data coverage)
9. 表达质量(presentation quality)
10. 可理解性、相关性和可信度(perception, relevance and trust)
11. 数据衰变(data decay)
12. 效用性(transactability)

课题：安全大数据的质量保持和真实性确证

课题：高噪音的大数据中保持分析结果的精确度

【价值导向的安全大数据】

数据是物理世界的数化反映。一句哲学化的说法：“价值让数据不同于数字”。数据背后是有对象的，而这些对象常常是有属主的、有立场的、有价值归属的、主观的。

大数据几个V中的这个Value，最主要的意思就是“大数据的低价值密度”。由于大数据的体量很大，其所蕴含的价值总量是很大很可观的，但是由于其体量大也就导致了其价值密度极低，而且是极端的低密度、极度地稀疏。

稀疏价值背后带来了一个很前沿的学术方法——超高维问题。这些稀疏的价值，就像在一个高维空间的一些稀疏的点。高维到什么程度？稀疏到什么程度？最极端的情况就是这些数据样本的维度甚至比样本个数还大。比如，人类基因测序问题就是这类型的问题，基因所蕴含的丰富维度是大大高于普通研究中所能涉及的几十万几百万样本规模的。
在传统计算的处理习惯和限制下，我们会尽量获取二维或者低维数据。而大数据方法提示我们可以主动获取高维度数据来解决无特征安全分析问题。比如，为被分析对象抽取高维度指标（几百甚至更多维度），然后再进行降维算法处理。这是安全分析中非常有前途的方向。

课题：高维安全数据降维算法和高性能计算。

所谓的价值稀疏，还有另一个视角。当具体到某一个精确定义和要求的价值，在大数据中是稀疏的。而大数据中的挖掘和利用中，不一定要获取过于精确的价值。比如，在进行“实体的个体标识”过程中，所获得的稍微模糊一些的“实体的分类标识”就能够产生不少的价值。常常说大数据是未来的石油。但是，在广袤的地球中，除了石油，还有煤、天然气；还有金子、钻石、翡翠；而像南红玛瑙、蜜蜡、青金石这样的新珠宝还在被逐步的挖掘出来。所以对于大数据的价值挖掘要有种地刨出田黄石鸡血石的心理预期。

但是，信息安全问题的解（价值）还是有比较明确的指向性的——就是在对抗中获胜。而对抗中获胜的价值分解就非常丰富多彩了。要平衡信息安全价值指向的确定性与大数据的泛价值之间的矛盾。

课题：全局安全事件的局部发现和局部处置

【价值展现的安全大数据】

价值如果挖掘出来了，还要展现给应当了解这些价值的人（或者系统）。这种可视化展示有两种努力方向：

第一种，就是将大数据中的价值“在较短的时间窗口内，用较低维度的形态”展现出来。比如一幅图，就是单点时间的二维图。比如病毒传播过程展示，就是短时间的网络拓扑（二维）过程录像。

第二种，就是给需要进行处置和响应的人和系统，提供足够的提示信息甚至是指令。自动和辅助驾驶的汽车和飞机，就需要这样的可视化系统。

而广域网网络风暴快速处置就同时需要前面这两种可视化能力。

课题：宏观网络安全事件可视化展示

课题：APT安全事件还原和展示

【总结】

分析几个Ｖ背后的规律，让我们反思和了解大数据的一些基础问题。在7个V中，

——第1V，表达的是大数据所外在表现的 “大”量；
——第2V-4V说的是大数据的“大”是从时间、空间和多样性这三个方向而来；
——第5V-7V阐述的是大数据的价值流转。从数据本身的客观质量，到有立场的价值认识和价值挖掘，最后到价值的展示和利用。