高维数据集之间的线性可分性判定（一个快速准确的方法）

本文链接：https://blog.csdn.net/qq_44899812/article/details/137973687

作者分享了一种发表在TPAMI上的新算法，用于在任意维度下快速判断两集合的线性可分性。该算法已在GitHub开源，尽管代码尚需优化以充分发挥GPU性能，但已在中等规模数据集上显示了高效性。该工作在数据分析中有广泛应用，如数据结构分析和复杂操作的基础构建。

摘要由CSDN通过智能技术生成

关于这个问题，我分享一下我们的工作：在任意维度下快速准确判定两集合线性可分的算法。

该工作已经发表在TPAMI2024上。

S. Zhong, H. Lyu, X. Lu, B. Wang and D. Wang, “A New Sufficient & Necessary Condition for Testing Linear Separability between Two Sets,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, doi: 10.1109/TPAMI.2024.3356661.
在这里插入图片描述
（不知道”page(s):1-14“ 是什么意思，意思是我论文一共14页吗？这个信息有什么意义吗？）

相关的算法代码我已经开源在github。
https://github.com/lhfbest/Testing-Linear-Separability-between-Two-Sets-in-any-dimension/blob/main/README.md
在这里插入图片描述
需要注意的是，由于笔者目前只是硕士，编程能力有待提高，该代码仅为可行性测试代码，仍然有很多的可以优化的地方。目前该代码在3000维、中等规模（几万个数据）下能够快速响应（按秒计算），如果要完全发挥出该算法的能力，还需要优化（因为该算法实现包含了GPU并行计算，而我在这方面能力暂时比较有限）。如果各位道友有好的优化建议提出，我会非常感谢！
该工作（线性可分性判定）的意义，目前主要是在数据分析、数据预处理阶段，用于直接地分析数据的分布结构（可分还是不可分），实际上其更多的意义是将其当作更复杂操作的基础，例如进行“不冗余点”提取，离群点分析，凸包计算等更复杂的操作（这也是我们目前的工作）。