物联网信息处理技术IPT（数据挖掘）第二章2.3-2.4

bunny playing games

已于 2023-08-25 22:03:42 修改

阅读量240

点赞数

分类专栏：大三下文章标签：经验分享数据挖掘

于 2023-06-11 01:00:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53631388/article/details/131148167

版权

大三下专栏收录该内容

12 篇文章 1 订阅

订阅专栏

目录

2.3 Cluster集群

Cluster Analysis: Basic Concepts聚类分析:基本概念

Partitioning Methods分割算法

记录点：Kmeans和Kmedoids

Hierarchical Methods分层聚类

记录点：AGNES（凝聚嵌套）和DIANA（分裂分析）

Density-Based Methods基于密度的方法

记录点：DBSCAN: Density-Based Spatial Clustering ofpplications with Noise基于密度的噪声空间聚类应用

Evaluation of Clustering聚类评价

记录点：两种找K（聚类数量）法——经验法（简单公式法）和手肘法

2.4 Outlier Analysis异常值分析

Outlier（离群值、异常值)

Outlier Detection Methods (异常检测方法)

Statistical Approaches 统计方法

Proximity-Base Approaches: Distance-Based vs. Density-Based Outlier Detection接近基础方法:基于距离和基于密度的离群点检测

记录点：基于距离的异常值检测

记录点：基于聚类方法的异常值检测

Classification Approaches分类方法

2.3 Cluster集群

Cluster Analysis: Basic Concepts聚类分析:基本概念

分类是监督学习，聚类分析是无监督学习

聚类的步骤

Partitioning Methods分割算法

注意这俩区别

记录点：Kmeans和Kmedoids

这里簇用了cluster

首先设K为2，从中间划分两边，算出两边的seed point，然后发现自己阵营的点更靠近对方的seed point，就把这个点划分过去，再重新算两边的seed point，直到不变

这也是下面伪代码的解释

这个弱点：指只能找到局部最优解，而不是全局最优解

因为用的是欧氏距离，其它的不一定

前面“弱点”和这里的“问题”不一样

不能用于“飞突”数据集（好像是这个发音

左下角的公式d是某个点p到中心点c的距离，得到的E是非相似性

Eswapping是指除了中心被选点之外的任意一个点，如果有点能使S小于0，那就换成这个点

Kmedoid的简要解释和弱点

Hierarchical Methods分层聚类

这里看AGNES和DIANA的区别

记录点：AGNES（凝聚嵌套）和DIANA（分裂分析）

以两个簇中最近的两个点的距离作为衡量参考

想要两个簇，画一条平行线，正好穿过两根竖线，看每一根上面是啥集合汇聚过来的

左到右不是一步得到的，要一个一个分裂

当一个类内的相似度足够好的话，就没必要继续分裂了

上述分裂法：

就是让一个集里元素之间最大距离都小于这个->

Density-Based Methods基于密度的方法

比如我们只要S里面的数据，但由于按照圆形来包裹数据，就把那两个眼里的异常值也算进去了

空白区、密集区——我们需要根据密度来分类

了解一下上述概念

两个条件

传递性，让区域扩大

记录点：DBSCAN: Density-Based Spatial Clustering ofpplications with Noise基于密度的噪声空间聚类应用

就是找密度联通的最大集合

先让所有点都是未标记状态，随机选一个点P标记，如果这个P是核心对象（检测它的领域），那么P加入C，并设它的领域为N，再看看N里的点是不是被标记，未被标记的话，重复上述

注意第12，和9是并列的，9是找密度联通最大，12是万一P’是别的密度里的（吧）

密度可达，显然是密度连通

P点周围密度不够会被标记为noise

遍历所有点

参数的选择对聚类结果的影响

Evaluation of Clustering聚类评价

记录点：两种找K（聚类数量）法——经验法（简单公式法）和手肘法

轮廓系数，a(o)代表紧凑性，b(o)代表不同类分离程度

2.4 Outlier Analysis异常值分析

Outlier（离群值、异常值)

比如异地登录会以为你被盗号了，和噪声不一样，噪声会存在，但异常点连属性都不一样平时一般不会出现

但异常可能会变成正常，比如异地登录可能是你换地方生活了

理解这个就行

Outlier Detection Methods (异常检测方法)

小卖铺说不考

挑出那些不符合已经确定的类的数据

就端水是吧

Statistical Approaches 统计方法

给异常值一些概率

这个就是高中数学大题第一题

这里看看图，感觉也没明说怎么筛选

Proximity-Base Approaches: Distance-Based vs. Density-Based Outlier Detection接近基础方法:基于距离和基于密度的离群点检测

小卖铺说这上面都要考

就是看这个点r为半径的周围区域的点数量够不够

这个公式，是不是要背啊

记录点：基于距离的异常值检测

记录点：基于聚类方法的异常值检测

用kmeans来找异常点，主要作用是分类，有点不懂，感觉这个方法不靠谱

1、3个是优点（无需标记、快速），后2个是缺点（不同聚类方法结果不同、为了聚类要高计算成本）

Classification Approaches分类方法

这里箭头指的是分类方法

单纯地从数据的本身内容区分是否异常值

瓶颈：指结果高度依赖训练集

bunny playing games

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

bunny playing games CSDN认证博客专家 CSDN认证企业博客

码龄4年

76: 原创

2万+: 周排名

4万+: 总排名

6万+: 访问

: 等级

1020: 积分

1967: 粉丝

291: 获赞

31: 评论

545: 收藏

私信

关注

热门文章

分类专栏

其它 5篇
大三上 12篇
大三下 12篇
大二下 7篇
测试开发 15篇
学习 14篇
大四上 10篇
PTE 2篇

最新评论

控制理论-Nichols Chart
chengwei628: 好东西，找着例子一步步的做就回了！！
使用postman请求x5接口
bunny playing games: 参考一下步骤就行了，链接用你自己的，因为这是我在前司的学习笔记
使用postman请求x5接口
ProQiao: 我还是报6002协议错误啊
IOS/安卓+charles实现抓包（主要解决证书网站无法打开问题）
ITV女诗人: 有空来看看我朋友的作品, 码农宝App (同时提供小程序版本), 可以让你体验功能及学习代码的App, https://blog.csdn.net/lujianfeiccie2009/article/details/112645439
手撕java必备
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。