DBSCAN 对点云障碍物聚类 找出数据集中的异常值

目录

使用DBSCAN找出数据集中的异常值

点云 DBSCAN 对点云障碍物聚类


使用DBSCAN找出数据集中的异常值

使用DBSCAN找出数据集中的异常值_赵卓不凡的博客-CSDN博客_dbscan 异常检测

1. 引言
找出数据中的异常值是数据预处理的必备工作之一,如果数据中存在异常值对于一些数据分析算法具有重大的影响。
本文主要探讨关于寻找异常值(离群值)的注意事项。

2. 离群值
离群值是指跟大部分数据差异很大的样本。比如,在一项统计国民收入的例子中,少数富豪的收入就很像离群值。离群值对于一些数据分析方法会有很大的影响。我们不妨来举个栗子。 


观察上图,为两个线性模型的分析结果,可以发现右侧只是增加一个离群值,我们的分析结果就会差很多。因此,如果没有处理好离群值,对于数据分析的结果可能会产生重大影响。

3.使用直方图确认离群值
既然我们知道数据集中存在离群值会对我们的分析结果产生影响,那么我们如何来确认数据中的离群值呢?
最常见的方法是使用直方图画出数据的分布。如下所示:

 

观察上图,我们很容易判断出这个数据集中确实存在离群值。但是,如果我们的数据集包含两个纬度的特征呢?我们来看个例子,如下:


观察上图,为我们将两个纬度的直方图绘制出来的结果,我们根据上图能否确认离群值呢?

嗯,看起来好像是没有离群值。。。很不幸这次通过看直方图我们的结论是错的。有时候,离群值是需要同时比对数个特征才有办法观察出来。我们不妨换种表示形式,不妨使用散点图(Scatter Plot)来呈现上述数据集,结果如下:


仔细观察上图右上角有两个样本,跟其他数据样本很不同,所以可以确定是离群值。我们需要同时观察2个特征,才有办法看出离群值。但是,如果数据集中有3个特征呢,难道要画出立体散点图来观察离群值吗?那如果数据集中有4个特征呢?这时候我们连图都画不出来了怎么办?

4.使用DBSACN来寻找离群值
DBSCAN是聚类算法的一种,这个方法是通过比较样本之间的距离,来判定那些样本是同一类。另一种常见的聚类算法是K-means,这是通过比较样本跟聚类中心的距离,来判定那些样本是同一类。由于我们的问题是要找是否有样本跟其他样本很不同,因此DBSCAN比较适合。

在下述代码中,我们使用sklearn中内置的SBSCAN方法来尝试找出上图右上角两个异常的离群值。

colors = ['red','blue']
data = np.array([x, y]).T
model = DBSCAN(eps = 0.5, 
               min_samples = 1, 
               leaf_size = 1).fit(data)
plt.figure()
plt.scatter(x, 
            y, 
            c = model.labels_, 
            cmap = matplotlib.colors.ListedColormap(colors))
plt.xlabel("X")
plt.ylabel("Y")
plt.title("Scatter Plot of Feature X and Y")
plt.show()



上述代码画出来的结果如下所示:

观察上图,可以看出跟其他样本不同,右上角的两个样本被分在不同的群组里。所以,通过使用DBSCAN算法,我们可以方便的找出具有多维特征的数据集里是否含有离群值。

5. 总结
我们生活的世界里数据每秒钟都在增长,在对数据进行分析之前,发现数据中的异常对于探索性数据分析至关重要。 本文就如何寻找数据集中的离群值的方法进行了简单的介绍,在具有多维特征的数据集中,大家不妨使用DBSCAN来寻找其中是否存在离群值。
 

点云 DBSCAN 对点云障碍物聚类

点云数据去除地面后,地面上的点很自然的都成了障碍物,但是要进行目标分类,还需要把每个目标的一堆障碍物的点聚集到一起,然后才好进行后续的分析,因为每个点都是空间上离的很近的点,那么很自然的,就想到了可以使用基于密度的聚类 DBSCAN ;

为了更好的适应我的需求,使用的是自己写的DBSCAN方法;

整个过程如下:

1 先做降采样,降低点云数量;

2 然后地面去除,得到障碍物的点;

3 然后把剩余的地表障碍物点送入 DBSCAN 进行聚类;

4 最后进行可视化;

聚类核心代码如下:

def vector_distance_v2(v):
    """
    把单个向量内部的每个元素两两相减,得到一个差值矩阵,矩阵是上三角和下三角刚好相反的结果
    :param v: 可以是一个一维数组,或者一个一维的列表
    :return:
    """
    if type(v) is list:
        v = np.array(v)
    # result = []
    # for i in range(len(v)):
    #     result.append(v[i] - v)  # 可以改为列表推导式
    result = [v[i] - v  for i in range(len(v))]
    return np.vstack(result)   
 
 

def point_distance(points):
    """
    计算所有 points 两两之间的距离
    :param points:  地面分割之后检测出来的点  n * 4
    :return:  n * n 的距离矩阵
    """
    d2 = vector_distance_v2(points[:,0])**2 + 
         vector_distance_v2(points[:,1])**2 + 
         vector_distance_v2(points[:,2])**2
 
 
    return np.sqrt(d2)
 
# @profile
def DBSCAN_points(points, eps=2., Minpts=15):
    """
    基于密度的点云聚类
    :param d_bbox: 点与点之间的距离矩阵
    :param eps:  最大搜索直径阈值
    :param Minpts:  最小包含其他对象数量阈值
    :return: 返回聚类结果,是一个嵌套列表,每个子列表就是这个区域的对象的序号
    """
    # 先求距离
    print('DBSCAN clustering:',points.shape)
    d_bbox = point_distance(points)
 
    #初始化核心对象集合T,聚类个数k,聚类集合C, 未访问集合P,
    T = set()
    k = 0
    C = []
    P = set(range(d_bbox.shape[0]))
    # print('P',P)
    for d in range(d_bbox.shape[0]):
        # print(np.sum( d_bbox[d,:] <= eps))
        if np.sum( d_bbox[d,:] <= eps) >= Minpts:
            T.add(d)  # 最初的核心对象
    print('Len T: ',len(T))
    #开始聚类
    while len(T):
        P_old = P  #
        o = list(T)[np.random.randint(0, len(T))]  # 从T中随机选取一个核心元素
        # o = list(T)[random.randint(0, len(T)-1)]  # 从T中随机选取一个核心元素
        # print('o: ',o)
        P = P - set([o])
        Q = []
        Q.append(o)
        # print('Q: ',Q)
 
        while len(Q):
            q = Q[0]
            # print('q: ', q)
            # Nq = [i for i in range(d_bbox.shape[0]) if d_bbox[q,i] <= eps] #q的领域密度
            Nq = np.where(d_bbox[q,:] <= eps)[0]
            if len(Nq) >= Minpts:
                S = P & set(Nq)   # 这个核心对象的密度可达对象与未访问对象的交集
                Q += (list(S))   # 把这个核心对象以及它的密度可达对象都包含进来,对所有的对象再做多次密度可达检测
                P = P - S  # 未访问集合P 减去 这个核心对象的密度可达对象
            # print('S: ', S)
            # print('Nq: ', Nq)
            # print('P: ', P)
 
            Q.remove(q)  # q 已经做过密度可达检测了,去掉它
        # print('------')
        k += 1
        Ck = P_old - P # 原有的P和去掉了该核心对象的密度可达对象的P就是该类的所有对象
        T = T - Ck  # 去掉该类对象里面包含的核心对象
        C.append(Ck)     # 把该类的对象加入列表
    # print('noise points:', P)   # 最后没有被归类的数据点就是噪音点
    return C


存在的问题:

1 耗时久,计算量大;主要是由于 DBSCAN 需要计算每两个点两两之间的距离,超过5万个点就是25万的距离矩阵,就直接报内存错误了,查看任务管理器发现内存占用达到了5-9G;尽管后续极力压缩,还是需要5-6秒的时间,这显然是不可接受的;

2 它对同一个物体聚类的效果比较好,不会存在同一个物体聚类分割成了2部分的情况;但是! 它会把多个离的比较近的物体聚类为一个;

效果如下图:


因为经过了降采样,图片中的点可能不是那么亮,但是其实效果还可以;并且这个里面的地面还存在一些,因为没有使用最新的地面分割方法;

原文链接:https://blog.csdn.net/weixin_31971181/article/details/113038548

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值