算法设计第十三章随机算法 randomed algorithm2

最新推荐文章于 2021-11-30 22:33:23 发布

deeeeeeplearning

最新推荐文章于 2021-11-30 22:33:23 发布

阅读量194

点赞数

分类专栏： algorithm design

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42153494/article/details/117357228

版权

algorithm design 专栏收录该内容

9 篇文章 6 订阅

订阅专栏

随机算法2

1 Boom filter
2 String equality and fingerprinting
- 2.1 算法
- 2.2 正确性
3 字符串匹配
- 3.1
- 3.2

1 Boom filter

1.1介绍

一种数据结构，管理一个集合，只支持查找与增加。
不支持删除操作导致可以用更少的内存与hash table（散列表）相比
假阳：实际不存在，查出存在。假阴：实际存在，查出不存在
boom filter 是近似的。假阳低概率，假阴几乎不存在。

1.2算法过程：

A为长度为m的数组，初始化全为0。k个独立的哈希函数 $h_1,...h_k$ , map keys to{1,…m}.
存储键 $x$ ,设置 $A[h_1(x)],A[h_2(x),...,A[h_k(x)]]$ 为1。
检测 $A[h_1(x)],A[h_2(x),...,A[h_k(x)]]$ 为1，则 $x$ 存在。否则不存在。因为没有删除功能，所以不存在假阴的情况。
对与假阳的情况，分析其bound，如下。

在这里插入图片描述

1.3假阳的概率：

假设hash函数是随机的，插入n个键， $P(i=0)=(1-\frac{1}{m})^{nk}\approx e^{-\frac{nk}{m}}$ 。
假阳的概率 $P(fasle-positive)=(1-P(i=0))^k\approx (1-e^{\frac{-nk}{m}})^k$
最优的 $k=\frac{mln(2)}{n}$

1.4 改进

增加删除功能。数组A记录个数而不是0和1.
$S_1 \cap S_2$ 可以通过数组减法实现。 $S_1 \cup S_2$ 可以通过加法实现。

2 String equality and fingerprinting

介绍

database太大，在通信过程中，验证是否相等，比较database的指纹。
如果指纹不同，则database不同
如果指纹相同，则database大概率相同。

2.1 算法

n bit 序列 $a_1,...,a_n)$ 和 $b_1,...b_n)$ 。
指纹 $F(a)=(\sum a_i*2^{i-1}) mod (p)$ , $F(b)=(\sum b_i *a2^{i-1})mod (p)$ 。只需要传输 $O (l o g p)$ bits。
如果 $F(a)\not =F(b)$ => $a\not =b$ 。 $F (a) = F (b)$ => $a = b$ or $a - b$ 整除 $p$ 。

2.2 正确性

p增大可以减少假阳的概率，但是p增加发送比特的复杂度。
任意数字 $t$ ，最多有 $log_2(t)$ 个离散的素数因子。
给定 $t$ ，小于 $t$ 的素数个数渐进为 $\frac{t}{lnt}$ . Prime Number Theorem
$a=\sum a_i*2^{i-1}$ , $b=\sum b_i *a2^{i-1}$ => $a-b< 2^n$ =>小于 $n$ 个素数因子。
$t=n^2ln(n)$ ,小于素数个数为 $O(n^2)$ ,p是从小于t的质数中随机选的。假阳的概率 $\leq \frac{n}{O(n^2)}=O(\frac{1}{n})$ 。

3 字符串匹配

3.1

方法与第二节类似，蒙特卡罗法与拉斯维加斯算法。
在这里插入图片描述

$X=x_1x_2...x_n$ $X(j)=x_jx_{j+1}...x_{j+m-1}$ 。
关键在于设计 $p$ ，与第二节类似。 $t=n^2log(n^2m)$ 假阳概率 $\frac{m}{n^2m}=\frac{1}{n^2}$ 。进行 $n - m + 1$ 次， $O(\frac{1}{n})$ 。

3.2

拉斯维加斯算法只有0和1。
在这里插入图片描述
因此蒙特卡洛算法判断之后再进行精确判断。

deeeeeeplearning

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
算法设计第十三章随机算法 randomed algorithm2

随机算法21 Boom filter1.1介绍1.2算法过程：1.3假阳的概率：1.4 提升2 String equality and fingerprinting2.1 算法1 Boom filter1.1介绍一种数据结构，管理一个集合，只支持查找与增加。不支持删除操作导致可以用更少的内存与hash table（散列表）相比假阳：实际不存在，查出存在。假阴：实际存在，查出不存在boom filter 是近似的。假阳低概率，假阴几乎不存在。1.2算法过程：A为长度为m的数组，初始化
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。