数据挖掘笔记(3)——聚类、离群点分析

本文详细介绍了数据挖掘中的聚类概念,包括基本定义、特征、评价标准以及不同数据类型的处理方法。此外,还探讨了聚类的主要方法,如k均值、层次方法和密度方法。同时,文章讨论了离群点分析,定义了离群点并提供了发现离群点的不同策略。
摘要由CSDN通过智能技术生成

聚类

基本概念

聚类:

      将对象分成相似的类,聚类中 一个样本可属于多个类别

特征:

      不考虑数据的类标号,而是通过聚类产生新类标号

评价:

        最大化类内相似性(similarity),最小化类间相似性。相似性需要定义,作为聚类的标准

数据挖掘的要求

        可解释性  

        发现任意形状的聚类

        处理不同类型属性的能力

        可伸缩性

        对于决定输入参数的领域知识需求最小

什么不是聚类:

        分类:有类标

            聚类最优分类组是未知的

            聚类结果是动态的

            可能没有关于聚类的先验知识

        简单分组:有定义(根据姓名进行分组)

        检索结果:有确定结果

        图分割


数据结构

    矩阵(表): 列标示特征、行标示记录,待处理的数据

    相异度矩阵(对称矩阵):  d(i,j):标示对象i和j的相异度,多数聚类算法都是对相异度矩阵运行

区间标度变量

        粗略的线性、连续变量,如高度、气温,选用的单位会影响聚类结果,度量单位(数值比较大,特征就会影响)

         解决: 度量标准化(转换为无单位的值):1.  计算均值绝对偏差(反应数据离散度)   2.

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值