论文阅读:SketchFlowPer-Flow Systematic Sampling Using

SketchFlow: Per-Flow Systematic Sampling Using Sketch Saturation Event

SketchFlow:使用草图饱和事件的每流系统采样

采样可以减少系统开销

NetFlow 使用本地表来计算每个流的记录,sFlow 会定期将收集到的数据包头通过网络发送到收集服务器。

存在问题:简单随机抽样 (SRS) 由于其简单性而在实践中得到了广泛的应用。但是,SRS 为不同的细粒度流(由 5 元组定义)提供了不统一的采样率,因为它通过聚合数据流(由交换机端口或 VLAN 定义)对数据包进行采样。因此,一些流的采样率高于指定的采样率(导致高估),而另一些流的采样率较低(导致低估)。

目标:“独立的每流数据包采样提供对每个流的最准确估计”,为所有流提供相同的采样率。

贡献:提供了一种称为 SketchFlow 的具体采样方法,它近似于使用草图饱和事件的每流系统采样的想法。

1.intro

SRS的好处:

Sampled NetFlow 对数据包进行采样以减少交换机的 CPU 开销,从而防止路由决策延迟。

sFlow 使用简单的随机采样来减少网络上的元数据传输。

Sketched到底是啥?

抽样可以减轻六级录得负担并减轻网络的带宽开销

保持稳定的任务减少率是评估采样算法的关键部分,其中元素流入量的减少由采样率决定,这也导致了众所周知的准确性和开销之间的权衡。

多种采样策略:定时采样、事件驱动(数据包驱动)采样、流细化或流采样(已被证明在其准确性方面更好)

包采样区分为线性和非线性的。线性采样均匀的概率抽样,非线性对大流量抽样少,小流量抽样多,非线性采样率通过大量采样小流来保证流量分配的准确性,从而大大增加了开销

Sketches是紧凑的数据结构,它使用概率计数器来近似估计流的谱密度 。使用少量内存的情况下,基于草图的算法在估计方面比采样方法更准确。草图的更高准确性是由于其按流估计的性质。

基于草图的估计研究主要集中在草图本身:草图仅使用少量内存的特性使其无法用于处理大规模数据。一旦草图饱和,它就根本无法计数。因此,基于草图的测量算法只能以有限的方式使用,一旦草图饱和,它就根本无法计数。因此,基于草图的测量算法已以有限的方式使用

两个缺点:小容量,解码计算量大 引入时延。

SketchFlow 的核心思想是识别流的草图饱和事件并仅对触发数据包进行采样。流的饱和草图被重置,以便可以重复使用。因此,SketchFlow 既可以看作是一个采样器,也可以看作是一个草图。然而,SketchFlow 并不能单独作为测量整个数据流的草图,而是作为 NetFlow 和 sFlow 的通用采样器。

i 我们引入了每流系统数据包采样的新概念以进行精确采样。

ii 我们提出了一个新的框架,以每个流的草图饱和事件作为流的采样信号,从而只从流中采样一个信令包,而饱和的草图被清空以进行下一轮采样。

iii 我们实现了一个近似版本的 perflow 系统数据包采样,称为 SketchFlow。为此,提出了一种新的逐流草图算法,可以实时编码和解码流。多层草图设计应用于可扩展采样。

iv 我们使用真实世界的数据集展示了 SketchFlow 在稳定采样率、准确性和开销方面的性能。

2.动机:流量感知采样 VS。流式采样

NetFlow的瓶颈是本地表的处理能力,sFlow的瓶颈是网络容量。为了解决瓶颈,使用了广泛采用的简单随机抽样(SRS),开销非常小。

但SRS是通过接口或 VLAN 进行采样,它收集粗略的样本而不考虑单个细粒度流,不能保证真正的机会均等的随机采样。

因此,最好的策略是在各个流中保持每个流的采样率相同。为此,我们提出了逐流系统数据包采样,这是一种对流中的每个第 p 个数据包进行采样的方法,而众所周知的数据包级系统采样是对整个数据包中的每个第 p 个数据包进行采样。数据流。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值