聚类算法初步(1)

由于可能之后需要用到相应的聚类算法,这两天先对于简单的聚类算法有一个初步的了解

分类大致可以分为7类

  1. 层次化聚类算法
  2. 划分式聚类算法
  3. 基于模型的聚类算法
  4. 基于密度的聚类算法
  5. 基于网络的聚类算法
  6. 基于约束的聚类算法
  7. 基于模糊的聚类方法
  • 首先来看一下聚类的含义,聚类属于数据挖掘领域内的词汇,是指按照一定的标准(比如说常用的距离等)将数据集分成不同的类或是簇,使得同一簇内的数据对象其相似性尽可能的大,而不同簇内的对象其差异尽可能的大
  • 我们所可能搞混的两个名词是聚类和分类。其中聚类(custering),其不关心某一类具体是什么,只是将相似的对象聚集在一起,通常来说是不需要使用数据进行训练和学习的,属于无监督学习(unsupervised learning);分类(classification),是需要事先告诉某个东西被分为某一类的例子,在理想的情况下,可以通过其得到的训练集学习来获取对于未知对象的数据分类的能力,属于监督学习(supervised learning)

聚类的一般过程:

1.数据准备:特征标准化、降维

2.特征选取:从最初的所有的特征集合中选取有用的特征并且将其存储于向量中

3.特征提取:使得特征通过某种的转换,将其进行突出

4.聚类/分组:选取适合特征的距离向量函数,对于聚类中使用的距离进行度量

5.聚类结果评估:包含外部有效性评估、内部有效性评估以及相关测试评估


下面来介绍上面所说的7类聚类算法:

1.层次化聚类算法

    也可以将其称作树聚类算法,为一种层次架构,其中包含反复的分裂或聚合

    基本过程:将对象看作一个簇,然后将其进行相关的合并成为一个更大的簇,直至所有的对象都在一个簇中或者满足某个终结                       条件

    1.1BIRCH算法

        使用树的结构进行快速的聚类,CF Tree(clustering feature)聚类特征树,该树的每一结点由若干的CF组成

        适用于数据量大,类别数K较多的情况,但是类别数K可以不用输入。此外,其只需要单遍扫描数据集,对于内部节点以及           叶节点的CF数量有限制,可能会使聚类的结果和真实的分布结果之间发生偏差

    1.2CURE算法

        其中聚类的距离定义为两簇中代表性点的之间距离的最小值

        特点:不适用单个的质心或者是对象来代表一个簇,而是选择其数据空间中固定数目的具有代表性的点,也就是由多个点来                   代表一个簇,其好处就是可以适应非球形的几何形状,有利于控制其中的孤立点的影响。其针对的是大规模数据库的                   设计

    1.3CHAMELEON算法

        也被称作变色龙算法,使用动态模型,兼具互连性和近似性

        过程:构成k近邻图,将k近邻图分散成为小簇,之后再将最小簇进行部分合并

                  其中分散为小簇的一个方法为,给定一个点,将距离其最近的k个点连接起来作为一个最小簇

                  进行合并时需要考虑簇间的相似度,需要考虑相对连接性RI(Ci,Cj)以及相对近似性RC(Ci,Cj)

2.划分式聚类算法

    通过提前指定聚类数目或者聚类中心,通过不断的迭代来降低与目标函数之间的误差。主要针对于聚类是密集的情况并且类与      类之间的区别明显时的效果比较好

    基本流程:

        1.随机选择k个对象来代表簇的中心

        2.对于剩余对象来计算其与个簇中心的距离,将其加入距离最近的簇

        3.重新计算每个簇的平均值,将此平均值更新为聚类中心

        4.重复上述的步骤直至收敛

    以K-means算法为例:

        共有十个点,其初始的位置坐标情况如下,设置k=2:

        

    随机指定初始聚类中心A、B两个点,并且计算其他点到这两个点的距离,据此,将十个点分为两个聚类{A,C}、         {B,D,E,F,G,H,I,J}

完成后,重新计算其聚类中心点坐标,具体的公式见下图:

选取到了新的聚类坐标点之后,重新进行距离的计算,重新将之前的十个坐标点分为两类{A,B,C,D,E}、{F,G,H,I,J}

重新计算新的聚类中心点的坐标

计算好新的聚类中心之后再次进行距离的计算操作,{A,B,C,D,E}、{F,G,H,I,J}

  再次计算两个聚类中心的坐标,和之前一个步骤的值保持一致,其进入稳定

    最终的聚类结果如下,k=2时如下:





  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
城市应急指挥系统是智慧城市建设的重要组成部分,旨在提高城市对突发事件的预防和处置能力。系统背景源于自然灾害和事故灾难频发,如汶川地震和日本大地震等,这些事件造成了巨大的人员伤亡和财产损失。随着城市化进程的加快,应急信息化建设面临信息资源分散、管理标准不统一等问题,需要通过统筹管理和技术创新来解决。 系统的设计思路是通过先进的技术手段,如物联网、射频识别、卫星定位等,构建一个具有强大信息感知和通信能力的网络和平台。这将促进不同部门和层次之间的信息共享、交流和整合,提高城市资源的利用效率,满足城市对各种信息的获取和使用需求。在“十二五”期间,应急信息化工作将依托这些技术,实现动态监控、风险管理、预警以及统一指挥调度。 应急指挥系统的建设目标是实现快速有效的应对各种突发事件,保障人民生命财产安全,减少社会危害和经济损失。系统将包括预测预警、模拟演练、辅助决策、态势分析等功能,以及应急值守、预案管理、GIS应用等基本应用。此外,还包括支撑平台的建设,如接警中心、视频会议、统一通信等基础设施。 系统的实施将涉及到应急网络建设、应急指挥、视频监控、卫星通信等多个方面。通过高度集成的系统,建立统一的信息接收和处理平台,实现多渠道接入和融合指挥调度。此外,还包括应急指挥中心基础平台建设、固定和移动应急指挥通信系统建设,以及应急队伍建设,确保能够迅速响应并有效处置各类突发事件。 项目的意义在于,它不仅是提升灾害监测预报水平和预警能力的重要科技支撑,也是实现预防和减轻重大灾害和事故损失的关键。通过实施城市应急指挥系统,可以加强社会管理和公共服务,构建和谐社会,为打造平安城市提供坚实的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值