15、主动学习中的采样策略:聚类、代表性与现实多样性

主动学习中的采样策略:聚类、代表性与现实多样性

1. 基于聚类的采样

在计算机视觉的高级聚类中,若为多样性采样进行聚类,即使聚类在语义上无意义也无妨。从采样角度看,即便聚类本身语义不一致,也能从各聚类中获取图像的良好多样性。此时可忽略嵌入和主成分分析(PCA),直接基于像素值进行聚类,这种方法可能同样有效。例如,余弦相似度会使 RGB=(50,100,100) 和 RGB=(100,200,200) 产生相同向量,即同一图像更亮、更饱和的版本可能相同,但这可能并不重要。目前尚无深入研究表明,在主动学习采样时,图像的像素级聚类是否总是比降维聚类差,这是一个值得探索的研究课题。

2. 其他聚类算法

除了 k - 均值的其他变体,还可尝试其他聚类算法和相关的无监督机器学习算法,以下为你介绍三种算法:
- 基于邻近度的聚类 :如 k - 近邻(KNN)和谱聚类。KNN 基于聚类中少量项目(k 个项目)之间的邻近度形成聚类,而不是基于整个聚类。k - 均值的优点和局限在于所有聚类都有一个有意义的中心(均值本身),对于没有有意义中心的 L 形聚类或其他模式,KNN 能捕捉到这类聚类。谱聚类也是基于向量的聚类方法,通过用新向量表示特征空间,可发现更复杂的聚类形状。不过,没有明确证据表明基于邻近度的聚类在主动学习中始终优于 k - 均值聚类。
- 高斯混合模型(GMM) :GMM 允许一个项目同时属于多个聚类,与 k - 均值相比,该算法能产生更符合数学逻辑的聚类,k - 均值会在两个聚类自然重叠处强行划分边界。GMM 及相关算法也被称为软聚类或模糊聚类。同样,没有有力证据表明 GMM 为主动学习

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值