15、主动学习中的采样策略：聚类、代表性与现实多样性

最新推荐文章于 2025-08-22 13:33:23 发布

code8

最新推荐文章于 2025-08-22 13:33:23 发布

阅读量80

点赞数

CC 4.0 BY-SA版权

分类专栏：人机协同的智能未来文章标签：主动学习采样策略聚类

本文链接：https://blog.csdn.net/code8/article/details/151039080

人机协同的智能未来专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

主动学习中的采样策略：聚类、代表性与现实多样性

1. 基于聚类的采样

在计算机视觉的高级聚类中，若为多样性采样进行聚类，即使聚类在语义上无意义也无妨。从采样角度看，即便聚类本身语义不一致，也能从各聚类中获取图像的良好多样性。此时可忽略嵌入和主成分分析（PCA），直接基于像素值进行聚类，这种方法可能同样有效。例如，余弦相似度会使 RGB=(50,100,100) 和 RGB=(100,200,200) 产生相同向量，即同一图像更亮、更饱和的版本可能相同，但这可能并不重要。目前尚无深入研究表明，在主动学习采样时，图像的像素级聚类是否总是比降维聚类差，这是一个值得探索的研究课题。

2. 其他聚类算法

除了 k - 均值的其他变体，还可尝试其他聚类算法和相关的无监督机器学习算法，以下为你介绍三种算法：
- 基于邻近度的聚类 ：如 k - 近邻（KNN）和谱聚类。KNN 基于聚类中少量项目（k 个项目）之间的邻近度形成聚类，而不是基于整个聚类。k - 均值的优点和局限在于所有聚类都有一个有意义的中心（均值本身），对于没有有意义中心的 L 形聚类或其他模式，KNN 能捕捉到这类聚类。谱聚类也是基于向量的聚类方法，通过用新向量表示特征空间，可发现更复杂的聚类形状。不过，没有明确证据表明基于邻近度的聚类在主动学习中始终优于 k - 均值聚类。
- 高斯混合模型（GMM） ：GMM 允许一个项目同时属于多个聚类，与 k - 均值相比，该算法能产生更符合数学逻辑的聚类，k - 均值会在两个聚类自然重叠处强行划分边界。GMM 及相关算法也被称为软聚类或模糊聚类。同样，没有有力证据表明 GMM 为主动学习

会员秒杀 ¥9.9 重磅福利

超级会员免费看