HIBOG: Improving the clustering accuracy by amelioratingdataset with gravitation
论文链接
总结
这篇文章提出了一个类似于物理学中力的概念,它能将拉近相邻点之间的距离,而拉大较远点的距离,使数据集更有利于聚类。
优点
- 鲁棒性好,对大部分不同分布的数据集都有效;
- 运行更快
- 对超参数不敏感。
方法
思路
减小相似点距离,拉大不同点距离。
做法
分为两步,计算重力和移动物体(点)。
文章的想法可以用基础的物理思想概括,即物体的近邻共同为该物体施加一个合力(重力),使它向相似点(即物体的近邻)移动。而在这个过程中,物体自然而然地会远离不相似的点。
物体移动
首先讲物体移动,因为它的形式和物理学中近似,相对更好理解。
这个公式是物理学中位移的公式,而在这篇文章中,将 v 0 v_0 v0设为0, m m m设为1,则得到了位移为:
S ⃗ = 1 2 F ⃗ t 2 \vec S = \frac{1}{2}\vec F t^2 S=21Ft2
这里的 F F F就是题目中提到的重力,而 t t t则为超参。
对一个点 i i i来讲,它的新坐标就可以通过原坐标 o ⃗ i \vec o_i