【原创】《大数据互联网大规模数据挖掘与分布式处理》阅读笔记(三)

本文介绍了数据流的概念,强调其高速到达、范围广泛和持续性特点,导致处理时只能一次存取并需要近似结果。数据流处理算法的重点在于在有限存储空间内实现快速响应。文中讨论了数据流的模型、抽样、过滤和独立元素数量统计等问题,以及处理这些问题的方法,如布隆过滤器、FM算法和矩估计。此外,文章还探讨了窗口内的计数技术和指数衰减窗口在处理流数据中的应用。
摘要由CSDN通过智能技术生成

            《大数据互联网大规模数据挖掘与分布式处理》阅读笔记(三)           

                                                                              --------数据流挖掘

                                                                                                                                                                                                               作者: sissi

 

       数据流的概念最初在1998年由Henzinger提出,定义为“只能以事先规定好的顺序被读取一次的数据的一个序列”。例如通信过程的串行传输中,数据流为各个比特在一条信道上一个挨着一个的传输,在计算机网络中的TCP/IP的可靠传输服务的特性之一就是面向数据流。

         在此之后,学术界在此定义之上对数据流的定义进行修正,指“以非常高的速度到来的输入数据”,因此对数据流数据的传输、计算和存储都将变得很困难。在这种情况下,只有在数据最初到达时有机会对其进行一次处理,其他时候很难再存取到这些数据。

        在了解数据流特性之前,数据流中的数据具有以下特性【1】:

        数据的到达--快速

        短时间内可能会有大量的输入数据需要处理。这对处理器和输入输出设备来说都是一个较大的负担,因此对数据流的处理应尽可能简单。

        数据的范围--广域:

        数据属性(维)的取值范围非常大,可能取的值非常多,如地域、手机号码、人、网络节点等。这才是导致数据流无法在内存或硬盘中存储的主要原因。如果维度小,即使到来的数据量很大,也可以在较小的存储器中保存这些数据。数据流数据的属性大多与地理信息、IP地址、手机号码等有关,而且往往与时间联系在一起。这时,数据的维度远远超过了内存和硬盘容量,这意味着系统无法完整保存这些信息,通常只能在数据到达的时候存取数据一次

         数据到达的时间--持续:

         数据的持续到达意味着数据量可能是无限的。而且,对数据进行处理的结果不会是最终的结果,因为数据还会不断地到达。因此,对数据流的查询的结果往往不是一次性而是持续的,即随着底层数据的到达而不断返回最新的结果。

         以上数据流的特点决定了数据流处理的特点:一次存取,持续处理,有限存储,近似结果,快速响应。

近似结果是在前三个条件限制下产生的必然结果。由于只能存取数据一次,而且只有相对较小的有限空间存储数据,因此产生精确的计算结果通常是不可能的。而将对结果的要求从过去的“精确”改为“近似”后,实现数据流查询的快速响应也就成为了可能。

         数据流的常用处理算法

抽取样本、过滤、估计独立元素个数,其中估计方法所用的存数开销远少于列举所有元素的开销。即数据流处理的难点就是在于如何把存储数据的开销控制包括空间和时间开销等在一定范围以内。

         关于流汇总的方法

只观察一个定长“窗口”,该窗口由最近的N个元素组成,可对窗口进行查询处理,很多流和N很大的情况下,无法存储下每个流的整个窗口,故需要对窗口再进行汇总处理。窗口的概念,最熟悉的就是TCP为了提高数据流传输过程的效率,而采用的滑动窗口协议,允许发送方在等待一个确认之前可以发送多个分组。本书中介绍何种方法比存储整个窗口消耗空间更少,将拭目以待。

          下面习惯的展示本章的叙述框架:

                                                                                     

一、数据流模型

1.1一个数据流的管理系统

若干的流进入系统,每个流可以按照各自时间表提供数据,流的数据流和数据类型不必相同,不受系统的控制。

数据流的管理系统有两个存数器。归档存储器用于归档处理,假设不能应答查询。工作存储器可以应答查询,但是工作存储器的容量及其有限。

1.2流数据源的例子

    传感器数据、图像数据、互联网及WEB流量。除此以外,像电信、电网、地址勘测中流数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值