Generalizing the Layering Method of Indyk and Woodruff阅读笔记

本文是关于《Generalizing the Layering Method of Indyk and Woodruff: Recursive Sketches for Frequency-Based Vectors on Streams》的阅读笔记,探讨了信息流中的频数距、重型元素以及核心概念。通过递归计算和概率分析,证明了对向量的高效近似方法,特别是关于α-核心和频率向量的内核的定义和性质。
摘要由CSDN通过智能技术生成

< Generalizing the Layering Method of Indyk and Woodruff: Recursive Sketches for Frequency-Based Vectors on Streams> 阅读笔记

频数距: frequency moment
信息流: stream
重型元素: heavy element
[ n ] = [ 1 , 2 , ⋯   , n ] [n] = [1, 2, \cdots, n] [n]=[1,2,,n]
α \alpha α-核心: α \alpha α-core

定义1. m , n m, n m,n均为正整数. 信息流 D = D ( n , m ) D = D(n, m) D=D(n,m)是一个长度为 m m m的序列 [ p 1 , p 2 , ⋯   , p m ] [p_1, p_2, \cdots, p_m] [p1,p2,,pm]. 其中, p i ∈ { 1 , 2 , ⋯   , n } p_i\in \{1, 2, \cdots, n\} pi{ 1,2,,n}. 信息流 D D D的频数向量为 [ f 1 , f 2 , ⋯   , f n ] [f_1, f_2, \cdots, f_n] [f1,f2,,fn]. 其中, f i = ∣ { p j ∣ p j = i , 1 ≤ j ≤ m } ∣ f_i = \vert\{p_j | p_j = i, 1\le j \le m\}\vert fi={ pjpj=i,1jm}.

定义2. 信息流 D D D的第 k k k频数距可定义为 F k ( D ) = ∑ i = 1 n f i k F_k(D) = \sum_{i = 1}^n f_i^k Fk(D)=i=1nfik. F k ( D ) F_k(D) Fk(D)也可称为信息流 D D D的L-k范式.

定义3. V = [ v 1 , v 2 , ⋯   , v n ] V=[v_1, v_2, \cdots, v_n] V=[v1,v2,,vn], 其中 ∀ i ∈ [ n ] , v i ≥ 0 \forall i\in [n], v_i \ge 0 i[n],vi0. ∣ V ∣ = ∑ i = 1 n v i \vert V\vert = \sum_{i = 1}^n v_i V=i=1nvi. 如果 v i ≥ α V v_i \ge \alpha V viαV, 则 v i v_i vi V V V的一个 α \alpha α-重型元素, 其中 0 ≤ α ≤ 1 0\le \alpha \le 1 0α1. 对于任意 v i v_i vi, 如果 v i v_i vi V V V α \alpha α重型元素, 则 i ∈ S i\in S iS, 则我们称 S S S V V V的一个 α \alpha α-核心.

引理1. V ∈ R [ n ] V\in R^[n] VR[n]为一个 n n n维向量, S S S V V V的一个 α \alpha α核心. 同时令 H = ( h 1 , h 2 , ⋯   , h n ) H=(h_1, h_2, \cdots, h_n) H=(h1,h2,,hn)为一个随机0-1向量, 即 ∀ i ∈ [ n ] , P ( h i = 0 ) = P ( h i = 1 ) = 1 2 \forall i\in [n], P(h_i = 0) = P(h_i = 1) = \frac{1}{2} i[n],P(hi=0)=P(hi=1)=21, 且 H H H的各个分量相互独立. 设
X = ∑ i ∈ S v i + 2 ∑ i ∉ S h i v i X = \sum_{i\in S} v_i + 2\sum_{i\notin S}h_iv_i X=iSvi+2i/Shivi
则有 P ( ∣ X − ∣ V ∣ ∣ ≥ ϵ ∣ V ∣ ) ≤ α ϵ 2 P(\vert X - \vert V\vert\vert \ge \epsilon \vert V\vert) \le \frac{\alpha}{\epsilon^2} P(XVϵV)ϵ2α.
证明: 首先,
E ( X ) = E ( ∑ i ∈ S v i + 2 ∑ i ∉ S h i v i ) = ∑ i ∈ S v i + 2 ∑ i ∉ S v i E ( h i ) = ∑ i ∈ S v i + ∑ i ∉ S v i = ∣ V ∣ E(X) = E(\sum_{i\in S}v_i + 2\sum_{i\notin S}h_iv_i) = \sum_{i\in S}v_i + 2\sum_{i\notin S}v_iE(h_i) = \sum_{i\in S}v_i + \sum_{i\notin S}v_i = |V| E(X)=E(iSvi+2i/Shivi)=iSvi+2i/SviE(hi)=iSvi+i/Svi=V
同时,
V a r ( X ) = V a r ( ∑ i ∈ S v i + 2 ∑ i ∉ S h i v i ) = 4 ∑ i ∉ S v i 2 V a r ( h i ) Var(X) = Var(\sum_{i\in S}v_i + 2\sum_{i\notin S}h_iv_i) =4\sum_{i\notin S}v_i^2Var(h_i) Var(X)=Var(iSvi+2i/Shivi)=4i/Svi2Var(hi)
V a r ( h i ) = 1 4 Var(h_i) = \frac{1}{4} Var(hi)=41, 所以 V a r ( X ) = ∑ i ∉ S v i 2 Var(X) = \sum_{i\notin S}v_i^2 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>