并查集算法:Union-Find

并查集算法:Union-Find

一.算法简介

并查集算法是为了解决一类连通性的问题,连通是一种等价关系,满足自反性,对称性和传递性。
- 自反性:p和p是连通的
- 对称性:假设p和q是连通的,那么q和p也是连通的
- 传递性:假设p和q是连通的,q和r也是连通的,那么可以推出p和r也是连通的

从连通性这种等价关系,我们可以将对象划分成等价类,等价类中的任意两个元素都是连通的。

二.API设计

并查集通常有这么几个API:

API功能
void init(int N)使用0~N-1初始化对象
void union(int p, int q)在p和q之间添加一条连接
int find(int p)找到p的标识符
bool connected(int p, int q)判断p和q之间是否存在连接
int count()求连通分量的个数

1.初始化API:init

假设有N个对象,通常情况下,我们将其标识符id初始化为0~N-1:

void init(int N) {
    for(int i = 0; i < N; ++i) {
        id[i] = i;
    }
    return;
}

id可以设置为一个数组或者vector,至于是将其设置位全局变量,还是以参数形式传递到init函数,取决于个人和问题。
另外利用SGI STL的iota函数:(iota代表了古希腊字母ι,具体含义见what-does-iota-of-stdiota-stand-for

iota(id.begin(), id.end(), 0);
//或者
iota(id, id + N, 0);

也简单介绍一下iota函数的实现吧!

template<class ForwardIterator, class T>
void iota(ForwardIterator first, ForwardIterator last, T value) {
    while(first != last) *first++ = value++;
}

当然,有时初始化并不是将其初始化为0~N-1,就像我们在本文后面举的两个例子,有些未满足条件的对象,我们直接初始化为-1。这个依据问题发生改变。

2. union & find

(1). quick-find算法
只要保证id[p]==id[q],那么pq就是连通的。

int find(int p) { return id[p]; }
bool connected(int p, int q) { return id[p] == id[q]; }

union算法只需要将两个对象归到相同的分量中即可:

viod union(int p, int q) {
    int p_id = find(q), q_id = find(q);
    if(p_id == q_id) return;
    for(int i = 0; i < N; ++i) {
        if(id[i] == q_id)
            id[i] = p_id;   //将所有的与q连通的对象都归到p的连通分量去
    }
}

这个算法的优点在于find的操作是常数时间,缺点也很明显:每次union都要遍历一遍id,因此无法处理大型问题。
下面介绍改进的算法:
(2). quick-union算法
从字面意思看,就知道quick-union算法是为了提高union的效率。
quick-union算法的思路在于id意义的改变,假设得到id[p],这个时候id[p]的含义并不是标识位,而仍然是对象的编号,必须从这个对象又继续深入下去,直到满足p=id[p],这时说明p已经是这个连通分量的根节点。因此以后判断连通性只需要判断两个对象的根节点是否一致就行了。

int find(int p) {
    while(p != id[p]) p =id[p];
    return p;
}
bool connect(int p, int q) {
    return find(p) == find(q);
}
void union(int p, int q) {
    int p_root = find(p), q_root = find(q);
    if(p_root == q_root) return;
    id[q_root] = p_root;    //将q的根节点设为p的根节点
    return;
}

quick-union算法一般情况下(特殊输入无法保证)要比quick-find算法要快,因为不用每次union都遍历id。另外quick-union算法最坏的情况在于所有的对象的根节点相同,而且树高度为N。
(3). 加权quick-union算法
加权quick-union算法是为了改善树高度为N的那种最糟糕的情况,经过加权处理,能够保证树的高度远远小于未加权的树的高度
需要设置一个数组或者vector来记录树中的节点树,记为sz,且sz中的元素都初始化为1即可。

int find(int p) {
    while(p != id[p]) p =id[p];
    return p;
}
bool connect(int p, int q) {
    return find(p) == find(q);
}
void union(int p, int q) {
    int p_root = find(p), q_root = find(q);
    if(p_root == q_root) return;
    //将小树的根节点连接到大树的根节点
    if(sz[p_root] < sz[q_root]) {
        id[p_root] = q_root;
        sz[q] += sz[p];     //更新大树根节点的sz
    }
    else {
        id[q_root] = p_root;
        sz[p] += sz[q];     //更新大树根节点的sz
    }
}

可以证明的是:加权quick-union算法所构造的树的深度部超过lgN。
(4). 带路径压缩的加权quick-union算法
路径压缩指的是将每个节点都直接链接到其根节点,这样的树就是一颗几乎扁平的树。要实现路径压缩,只需要在find函数中,将路径上的所有节点都直接连接到根节点即可。

void find(p) {
    int p_temp = p;
    while(p != id[p]) p = id[p];    //找到根节点p
    while(p != id[p_temp]) {
        //将路径上的所有节点都直接连接到根节点
        int q = id[p_temp];
        id[p_temp] = p;
        p_temp = q;
    }
    return p;
}

3. count API

count()是为了计算连通分量的个数,思路其实很简单,定义一个变量count初始化为N,每次union之后将count减一即可,最后返回count:

//假设一种union算法
void union(int p, int q) {
    ...//不变,加上最后这一句
    --count;
}
int count() { return count; }

4.举两个例子

例子1:Number of Islands
Given a 2d grid map of ‘1’s (land) and ‘0’s (water), count the number of islands. An island is surrounded by water and is formed by connecting adjacent lands horizontally or vertically. You may assume all four edges of the grid are all surrounded by water.
代码如下:

    int Find(vector<int> &id, int p) {
        if (p == -1 || id[p] == -1) return -1;
        int temp = p;
        while (p != id[p]) p = id[p];
        while (temp != id[temp]) {
            int q = temp;
            temp = id[temp];
            id[q] = p;
        }
        return p;
    }
    void Union(vector<int> &id, vector<int> &sz, int p, int q) {
        int p_root = Find(id, p);
        int q_root = Find(id, q);
        if (p_root == q_root) return;
        if (sz[p_root] < sz[q_root]) {
            sz[q_root] += sz[p_root];
            id[p_root] = id[q_root];
        }
        else {
            sz[p_root] += sz[q_root];
            id[q_root] = id[p_root];
        }
        return;
    }
    int numIslands(vector<vector<char>>& grid) {
        if (grid.empty() || grid[0].empty()) return 0;
        int rows = grid.size(), cols = grid[0].size();
        int len = rows * cols;
        vector<int> id(len), sz(len, 1);
        for (int i = 0; i < rows; ++i) {
            for (int j = 0; j < cols; ++j) {
                id[i * cols + j] = grid[i][j] == '1' ? i * cols + j : -1;
            }
        }
        for (int i = 0; i < rows; ++i) {
            for (int j = 0; j < cols; ++j) {
                int pos = i * cols + j;
                if (id[pos] != -1 && i + 1 < rows && id[pos + cols] != -1) {
                    Union(id, sz, pos, pos + cols);
                }
                if (id[pos] != -1 && j + 1 < cols && id[pos + 1] != -1) {
                    Union(id, sz, pos, pos + 1);
                }
            }
        }
        map<int, int> my_map;
        for (int i = 0; i < rows; ++i) {
            for (int j = 0; j < cols; ++j) {
                int pos = i * cols + j;
                if (id[pos] != -1) ++my_map[Find(id, pos)];
            }
        }
        return my_map.size();
    }

FindUnion操作和我们上面的写的API基本一致,只是将初始化函数Init放到numIslands接口内部。基本思路就是:从左到右,从上到下,依次union满足条件的两个lands,最后根据根节点的个数(通过map)来计算island的个数。

例子2:机器人的运动范围
地上有一个m行和n列的方格。一个机器人从坐标0,0的格子开始移动,每一次只能向左,右,上,下四个方向移动一格,但是不能进入行坐标和列坐标的数位之和大于k的格子。例如,当k为18时,机器人能够进入方格(35,37),因为3+5+3+7 = 18。但是,它不能进入方格(35,38),因为3+5+3+8 = 19。请问该机器人能够达到多少个格子?
这个问题也可以用并查集来做,下面是代码实现:

//机器人的运动范围
bool IsVaildVal(int x, int y, int threshold) {
  int result = 0;
  while (x) {
    result += x % 10;
    x /= 10;
  }
  while (y) {
    result += y % 10;
    y /= 10;
  }
  return result <= threshold;
}
int Find(vector<int> &id, int p) {
  if (p == -1 || id[p] == -1) return -1;
  int temp = p;
  while (p != id[p]) p = id[p];
  while (p != id[temp]) {
    int q = id[temp];
    id[temp] = p;
    temp = q;
  }
  return p;
}
void Union(vector<int> &id, vector<int> &sz, int p, int q) {
  int p_root = Find(id, p);
  int q_root = Find(id, q);
  if (p_root == q_root) return;
  if (sz[p_root] < sz[q_root]) {
    sz[q_root] += sz[p_root];
    id[p_root] = id[q_root];
  } else {
    sz[p_root] += sz[q_root];
    id[q_root] = id[p_root];
    }
    return;
}
int movingCount(int threshold, int rows, int cols) {
    if(rows <= 0 || cols <= 0) return 0;
  vector<int> id(rows * cols), sz(rows * cols, 1);
  for (int i = 0; i < rows; ++i) {
    for (int j = 0; j < cols; ++j) {
      //将不满足坐标和的id值设为-1,否则设为其下标
      id[i * cols + j] = IsVaildVal(i, j, threshold) ? i * cols + j : -1;
    }
  }
  for (int i = 0; i < rows; ++i) {
    for (int j = 0; j < cols; ++j) {
            int pos = i * cols + j;
      if (id[pos] != -1 && i + 1 < rows && id[pos + cols] != -1)
                Union(id, sz, pos, pos + cols);
      if (id[pos] != -1 && j + 1 < cols && id[pos + 1] != -1)
                Union(id, sz, pos, pos + 1);
        }
    }
    int count = 0;
    int base_id = Find(id, 0);
  for (int i = 0; i < rows; ++i) {
    for (int j = 0; j < cols; ++j) {
      int pos = i * cols + j;
      if (id[pos] != -1 && Find(id, pos) == base_id)
                ++count;
        }
    }
    return count;
}

5.各类算法性能特点

算法InitUnionFind
quick-findO(N)O(N)O(1)
quick-unionO(N)O(树高度)O(树的高度)
加权quick-unionO(N)O(lgN)O(lgN)
压缩路径加权quick-unionO(N)接近O(1)接近O(1)
理想情况O(N)O(1)O(1)

压缩路径加权quick-union算法已经是这类算法中最优的算法了,理想情况的算法还没有人发现。

主要参考自《算法(第四版)》Robert Sedgewick & Kevin Wayne著,谢路云译。

非常棒的一本书,很多人都极力推荐的算法入门书。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1 目标检测的定义 目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。 目标检测任务可分为两个关键的子任务,目标定位和目标分类。首先检测图像中目标的位置(目标定位),然后给出每个目标的具体类别(目标分类)。输出结果是一个边界框(称为Bounding-box,一般形式为(x1,y1,x2,y2),表示框的左上角坐标和右下角坐标),一个置信度分数(Confidence Score),表示边界框中是否包含检测对象的概率和各个类别的概率(首先得到类别概率,经过Softmax可得到类别标签)。 1.1 Two stage方法 目前主流的基于深度学习的目标检测算法主要分为两类:Two stage和One stage。Two stage方法将目标检测过程分为两个阶段。第一个阶段是 Region Proposal 生成阶段,主要用于生成潜在的目标候选框(Bounding-box proposals)。这个阶段通常使用卷积神经网络(CNN)从输入图像中提取特征,然后通过一些技巧(如选择性搜索)来生成候选框。第二个阶段是分类和位置精修阶段,将第一个阶段生成的候选框输入到另一个 CNN 中进行分类,并根据分类结果对候选框的位置进行微调。Two stage 方法的优点是准确度较高,缺点是速度相对较慢。 常见Tow stage目标检测算法有:R-CNN系列、SPPNet等。 1.2 One stage方法 One stage方法直接利用模型提取特征值,并利用这些特征值进行目标的分类和定位,不需要生成Region Proposal。这种方法的优点是速度快,因为省略了Region Proposal生成的过程。One stage方法的缺点是准确度相对较低,因为它没有对潜在的目标进行预先筛选。 常见的One stage目标检测算法有:YOLO系列、SSD系列和RetinaNet等。 2 常见名词解释 2.1 NMS(Non-Maximum Suppression) 目标检测模型一般会给出目标的多个预测边界框,对成百上千的预测边界框都进行调整肯定是不可行的,需要对这些结果先进行一个大体的挑选。NMS称为非极大值抑制,作用是从众多预测边界框中挑选出最具代表性的结果,这样可以加快算法效率,其主要流程如下: 设定一个置信度分数阈值,将置信度分数小于阈值的直接过滤掉 将剩下框的置信度分数从大到小排序,选中值最大的框 遍历其余的框,如果和当前框的重叠面积(IOU)大于设定的阈值(一般为0.7),就将框删除(超过设定阈值,认为两个框的里面的物体属于同一个类别) 从未处理的框中继续选一个置信度分数最大的,重复上述过程,直至所有框处理完毕 2.2 IoU(Intersection over Union) 定义了两个边界框的重叠度,当预测边界框和真实边界框差异很小时,或重叠度很大时,表示模型产生的预测边界框很准确。边界框A、B的IOU计算公式为: 2.3 mAP(mean Average Precision) mAP即均值平均精度,是评估目标检测模型效果的最重要指标,这个值介于0到1之间,且越大越好。mAP是AP(Average Precision)的平均值,那么首先需要了解AP的概念。想要了解AP的概念,还要首先了解目标检测中Precision和Recall的概念。 首先我们设置置信度阈值(Confidence Threshold)和IoU阈值(一般设置为0.5,也会衡量0.75以及0.9的mAP值): 当一个预测边界框被认为是True Positive(TP)时,需要同时满足下面三个条件: Confidence Score > Confidence Threshold 预测类别匹配真实值(Ground truth)的类别 预测边界框的IoU大于设定的IoU阈值 不满足条件2或条件3,则认为是False Positive(FP)。当对应同一个真值有多个预测结果时,只有最高置信度分数的预测结果被认为是True Positive,其余被认为是False Positive。 Precision和Recall的概念如下图所示: Precision表示TP与预测边界框数量的比值 Recall表示TP与真实边界框数量的比值 改变不同的置信度阈值,可以获得多组Precision和Recall,Recall放X轴,Precision放Y轴,可以画出一个Precision-Recall曲线,简称P-R
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值