物联网信息处理技术IPT(数据挖掘)第二章2.3-2.4

目录

2.3 Cluster集群

Cluster Analysis: Basic Concepts聚类分析:基本概念

Partitioning Methods分割算法

记录点:Kmeans和Kmedoids

Hierarchical Methods分层聚类

记录点:AGNES(凝聚嵌套)和DIANA(分裂分析)

Density-Based Methods基于密度的方法

记录点:DBSCAN: Density-Based Spatial Clustering ofpplications with Noise基于密度的噪声空间聚类应用

Evaluation of Clustering聚类评价

记录点:两种找K(聚类数量)法——经验法(简单公式法)和手肘法

2.4 Outlier Analysis异常值分析

Outlier(离群值、异常值)

Outlier Detection Methods (异常检测方法)

Statistical Approaches 统计方法

Proximity-Base Approaches: Distance-Based vs. Density-Based Outlier Detection接近基础方法:基于距离和基于密度的离群点检测

记录点:基于距离的异常值检测

记录点:基于聚类方法的异常值检测

Classification Approaches分类方法


2.3 Cluster集群

Cluster Analysis: Basic Concepts聚类分析:基本概念

分类是监督学习,聚类分析是无监督学习

聚类的步骤

   

Partitioning Methods分割算法

注意这俩区别

记录点:Kmeans和Kmedoids

这里簇用了cluster

首先设K为2,从中间划分两边,算出两边的seed point,然后发现自己阵营的点更靠近对方的seed point,就把这个点划分过去,再重新算两边的seed point,直到不变

这也是下面伪代码的解释

这个弱点:指只能找到局部最优解,而不是全局最优解

因为用的是欧氏距离,其它的不一定

前面“弱点”和这里的“问题”不一样

不能用于“飞突”数据集(好像是这个发音

左下角的公式d是某个点p到中心点c的距离,得到的E是非相似性

Eswapping是指除了中心被选点之外的任意一个点,如果有点能使S小于0,那就换成这个点

Kmedoid的简要解释和弱点

   

Hierarchical Methods分层聚类

这里看AGNES和DIANA的区别

记录点:AGNES(凝聚嵌套)和DIANA(分裂分析)

以两个簇中最近的两个点的距离作为衡量参考

想要两个簇,画一条平行线,正好穿过两根竖线,看每一根上面是啥集合汇聚过来的

左到右不是一步得到的,要一个一个分裂

当一个类内的相似度足够好的话,就没必要继续分裂了

上述分裂法:

就是让一个集里元素之间最大距离都小于这个->

   

Density-Based Methods基于密度的方法

比如我们只要S里面的数据,但由于按照圆形来包裹数据,就把那两个眼里的异常值也算进去了

空白区、密集区——我们需要根据密度来分类

了解一下上述概念

两个条件

传递性,让区域扩大

记录点:DBSCAN: Density-Based Spatial Clustering ofpplications with Noise基于密度的噪声空间聚类应用

就是找密度联通的最大集合

先让所有点都是未标记状态,随机选一个点P标记,如果这个P是核心对象(检测它的领域),那么P加入C,并设它的领域为N,再看看N里的点是不是被标记,未被标记的话,重复上述

注意第12,和9是并列的,9是找密度联通最大,12是万一P’是别的密度里的(吧)

密度可达,显然是密度连通

P点周围密度不够会被标记为noise

遍历所有点

参数的选择对聚类结果的影响

   

Evaluation of Clustering聚类评价

记录点:两种找K(聚类数量)法——经验法(简单公式法)和手肘法

轮廓系数,a(o)代表紧凑性,b(o)代表不同类分离程度

   

   

2.4 Outlier Analysis异常值分析

Outlier(离群值、异常值)

比如异地登录会以为你被盗号了,和噪声不一样,噪声会存在,但异常点连属性都不一样平时一般不会出现

但异常可能会变成正常,比如异地登录可能是你换地方生活了

理解这个就行

  

Outlier Detection Methods (异常检测方法)

小卖铺说不考

挑出那些不符合已经确定的类的数据

就端水是吧

   

Statistical Approaches 统计方法

给异常值一些概率

这个就是高中数学大题第一题

这里看看图,感觉也没明说怎么筛选

  

Proximity-Base Approaches: Distance-Based vs. Density-Based Outlier Detection接近基础方法:基于距离和基于密度的离群点检测

小卖铺说这上面都要考

就是看这个点r为半径的周围区域的点数量够不够

这个公式,是不是要背啊

记录点:基于距离的异常值检测

记录点:基于聚类方法的异常值检测

用kmeans来找异常点,主要作用是分类,有点不懂,感觉这个方法不靠谱

1、3个是优点(无需标记、快速),后2个是缺点(不同聚类方法结果不同、为了聚类要高计算成本)

   

Classification Approaches分类方法

这里箭头指的是分类方法

单纯地从数据的本身内容区分是否异常值

瓶颈:指结果高度依赖训练集

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值