大数据学习之BigData常用算法和数据结构

最新推荐文章于 2019-10-28 13:02:14 发布

茄肥猫

最新推荐文章于 2019-10-28 13:02:14 发布

阅读量1.4k

点赞数 1

1.Bloom Filter

由一个很长的二进制向量和一系列hash函数组成

优点：可以减少IO操作，省空间

缺点：不支持删除，有误判

如果要支持删除操作：改成计数布隆过滤器

2.SkipList（跳表）

核心思路：由多层组成，每层都是一个有序链表，最底层包含所有元素，元素数逐层递减。每个节点包含两个指针，一个->,一个向下。

并行编程情况下可以用锁或者CAS操作。

CAS:

compare and swap，解决多线程并行情况下使用锁造成性能损耗的一种机制，CAS操作包含三个操作数——内存位置（V）、预期原值（A）和新值(B)。如果内存位置的值与预期原值相匹配，那么处理器会自动将该位置值更新为新值。否则，处理器不做任何操作。无论哪种情况，它都会在CAS指令之前返回该位置的值。CAS有效地说明了“我认为位置V应该包含值A；如果包含该值，则将B放到这个位置；否则，不要更改该位置，只告诉我这个位置现在的值即可。

用CAS实现的插入：

void insert(Node *prev, Node *node) {
	while (true) {
		node->next = prev->next;
		if (__sync_compare_and_swap(&prev->next, node->next, node)) {
			return;
		}
	}
}