sheng的学习笔记-AI-半监督聚类

coldstarry

已于 2024-08-30 16:38:25 修改

阅读量1.7k

点赞数 9

分类专栏： AI 文章标签：人工智能机器学习聚类

于 2024-08-30 16:36:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/coldstarry/article/details/141717911

版权

AI 专栏收录该内容

40 篇文章 1 订阅

订阅专栏

AI目录：sheng的学习笔记-AI目录-CSDN博客

半监督学习：sheng的学习笔记-AI-半监督学习-CSDN博客

聚类：sheng的学习笔记-AI-聚类(Clustering)-CSDN博客

均值算法：sheng的学习笔记-AI-K均值算法_k均值算法怎么算迭代两次后的最大值-CSDN博客

什么是半监督聚类

聚类是一种典型的无监督学习任务，然而在现实聚类任务中我们往往能获得一些额外的监督信息，于是可通过半监督聚类(semi-supervised clustering)来利用监督信息以获得更好的聚类效果。

聚类任务中获得的监督信息大致有两种类型。

第一种类型是“必连”(must-link)与“勿连”(cannot-link)约束，前者是指样本必属于同一个簇，后者是指样本必不属于同一个簇；
第二种类型的监督信息则是少量的有标记样本。

约束 k 均值算法

什么是约束k均值

约束k均值(Constrained k-means)算法是利用第一类监督信息的代表。

给定样本集D={x1,x2,...,xm}以及“必连”关系集合M和“勿连”关系集合C，(xi,xj)∈M表示xi与xj必属于同簇，(xi,xj)∈C表示xi与xj必不属于同簇。

该算法是K均值算法的扩展，它在聚类过程中要确保M与C中的约束得以满足，否则将返回错误提示

算法

解释如下

数据表现

令样本x4与x25,x12与x20,x14与x17之间存在必连约束，x2与x21,x13与x23,x19与x23之间存在勿连约束，即

M={(x4,x25),(x25,x4),(x12,x20),(x20,x12),(x14,x17),(x17,x14)},

C={(x2,x21),(x21,x2),(x13,x23),(x23,x13),(x19,x23),(x23,x19)}。

设聚类簇数K=3,随机选取样本x6,x12,x27作为初始均值向量

图13.8 西瓜数据集4.0上约束K均值算法(K=3)在各轮迭代后的结果。

样本点与均值向量分别用“∙”与“+”表示，必连约束和勿连约束分别用实线段与虚线段表示，红色虚线显示出簇划分。

显示出约束K均值算法在不同迭代轮数后的聚类结果。经5轮迭代后均值向量不再发生变化（与第4轮迭代相同），于是得到最终聚类结果

C1={x3,x5,x7,x9,x13,x14,x16,x17,x21};

C2={x6,x8,x10,x11,x12,x15,x18,x19,x20};

C3={x1,x2,x4,x22,x23,x24,x25,x26,x27,x28,x29,x30}。

约束种子 k 均值算法

什么是约束种子 k 均值

约束种子 k 均值Constrained Seed k-means算法是利用第二类监督的代表。

给定样本集D={x1,x2,...,xm}，假定少量的有标记样本为，其中为隶属于第k个聚类簇的样本。

这样的监督信息利用起来很容易：直接将它们作为“种子”，用它们初始化k均值算法的k个聚类中心，并且在聚类簇迭代更新过程中不改变种子样本的簇隶属关系。这样就得到了约束种子k均值(Constrained Seedk-means)算法

算法代码

解释如下

数据表现

仍以西瓜数据集4.0为例，

假定作为种子的有标记样本为S1={x4,x25},S2={x12,x20},S3={x14,x17}。

以这三组种子样本的平均向量作为初始均值向量，图13.10显示出约束种子k均值算法在不同迭代轮数后的聚类结果。经4轮迭代后均值向量不再发生变化（与第3轮迭代相同），于是得到最终聚类结果

C1={x1,x2,x4,x22,x23,x24,x25,x26,x27,x28,x29,x30};

C2={x6,x7,x8,x10,x11,x12,x15,x18,x19,x20};

C3={x3,x5,x9,x13,x14,x16,x17,x21}。

图13.10 西瓜数据集4.0上约束种子k均值算法(k=3)在各轮迭代后的结果。

样本点与均值向量分别用“∙”与“+”表示，种子样本点为红色，红色虚线显示出簇划分。

参考文章

12.半监督学习 - 五、半监督聚类 - 《AI算法工程师手册》 - 书栈网 · BookStack

14 半监督学习 - 14.4 半监督聚类 - 《周志华《机器学习》学习笔记》 - 书栈网 · BookStack

书：机器学习

关注

9
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

coldstarry CSDN认证博客专家 CSDN认证企业博客

码龄12年

124: 原创

1万+: 周排名

1万+: 总排名

8万+: 访问

: 等级

2048: 积分

618: 粉丝

853: 获赞

13: 评论

979: 收藏

私信

关注

热门文章

分类专栏

最新评论

sheng的学习笔记-AI-归纳逻辑程序设计（ILP）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619323887。
sheng的学习笔记-hive框架原理
coldstarry: 谢谢
sheng的学习笔记-hive框架原理
喻师傅: 写的好啊
sheng的学习笔记-docker部署Greenplum
coldstarry: 第一个问题Error response from daemon: driver failed programming external connectivity on endpoint greenplum 回答：可能是在docker的容器端口映射到本机端口有问题，sudo systemctl status docker 先看看守护进程是不是正常运行，然后lsof -i :port_number 查看端口是不是被别的进程占用了，如果都没问题，看看你docker的端口映射是不是配置错了，试试关了防火墙。第二个问题[CRITICAL]:-gpstart failed. (Reason='FATAL: no pg_hba.conf entry for host "::1", user "gpadmin", database "template1", SSL off 你这个问题，我也没遇到过，你是不是改了pg_hba.conf 这个文件？如果改了，建议瞅瞅改动的地方，最好恢复一下
sheng的学习笔记-docker部署Greenplum
violetal: 请教一下，docker run 那部报错了。 /usr/bin/docker-current: Error response from daemon: driver failed programming external connectivity on endpoint greenplum (20e77622b6d2cf2dda9bc4b7a05609a8d22edd5098f9a634232f6a4be0cd07f3): (iptables failed: iptables --wait -t nat -A DOCKER -p tcp -d 0/0 --dport 5432 -j DNAT --to-destination 172.17.0.2:5432 ! -i docker0: iptables: No chain/target/match by that name. (exit status 1)). 目前我遇到过两种报错，还有一种报错是 20240530:02:35:03:000026 gpstart:e869f6d116c0:gpadmin-[CRITICAL]:-gpstart failed. (Reason='FATAL: no pg_hba.conf entry for host "::1", user "gpadmin", database "template1", SSL off ') exiting... 我没用过docker，请教下您要怎样解决呢？

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。