python数据处理--按照数据差值大小进行聚类（归类）

最新推荐文章于 2022-04-11 16:16:29 发布

walking_visitor

最新推荐文章于 2022-04-11 16:16:29 发布

阅读量7.4k

点赞数 8

分类专栏： Python 算法文章标签： python 数据聚类数据处理算法

本文链接：https://blog.csdn.net/walking_visitor/article/details/82682731

版权

Python 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

算法

7 篇文章 0 订阅

订阅专栏

近来在做数据处理的工作中，遇到了数据分类的问题，利用python的各种方便库，写了这么个以数据差值大小进行归类的方法。

应用场景：

有一批数据集，如list=[1,2,3,4,9,10,11,20,20,1,1.1,2.1,100]，将其按照数值大小进行归类，即数值比较接近的归为一类，故需要先设置一个阈值，以进行划分。具体实现如下：

其中输入参数Data_set为输入的数据集，可以为列表、数组、Series、DataFrame。threshold为数据大小分类的门限值。

输出class_k为数据归类列表集合，index_list为数据归类对应的索引集合。

def threshold_cluster(Data_set,threshold):
    #统一格式化数据为一维数组
    stand_array=np.asarray(Data_set).ravel('C')
    stand_Data=Series(stand_array)
    index_list,class_k=[],[]
    while stand_Data.any():
        if len(stand_Data)==1:
            index_list.append(list(stand_Data.index))
            class_k.append(list(stand_Data))
            stand_Data=stand_Data.drop(stand_Data.index)
        else:
            class_data_index=stand_Data.index[0]
            class_data=stand_Data[class_data_index]
            stand_Data=stand_Data.drop(class_data_index)
            if (abs(stand_Data-class_data)<=threshold).any():
                args_data=stand_Data[abs(stand_Data-class_data)<=threshold]
                stand_Data=stand_Data.drop(args_data.index)
                index_list.append([class_data_index]+list(args_data.index))
                class_k.append([class_data]+list(args_data))
            else:
                index_list.append([class_data_index])
                class_k.append([class_data])
    return index_list,class_k

测试如下：

import numpy as np

from pandas import Series,DataFrame

Data_set=[1,1.1,0.9,-5,2,100,99,-4.2,10000,0]

index_list,class_k=threshold_cluster(Data_set,5)

index_list
Out[10]: [[0, 1, 2, 4, 9], [3, 7], [5, 6], [8]]

class_k
Out[11]: [[1.0, 1.1, 0.9, 2.0, 0.0], [-5.0, -4.2], [100.0, 99.0], [10000.0]]

walking_visitor

关注

8
点赞
踩
17

收藏

觉得还不错? 一键收藏
3
评论
python数据处理--按照数据差值大小进行聚类（归类）

近来在做数据处理的工作中，遇到了数据分类的问题，利用python的各种方便库，写了这么个以数据差值大小进行归类的方法。应用场景：有一批数据集，如list=[1,2,3,4,9,10,11,20,20,1,1.1,2.1,100]，将其按照数值大小进行归类，即数值比较接近的归为一类，故需要先设置一个阈值，以进行划分。具体实现如下：其中输入参数Data_set为输入的数据集，可以为列表、数...
复制链接

扫一扫