如何在原先的jqgrid中填充新的数据_聚类算法中的若干挑战问题

weixin_39969143

于 2020-11-20 18:11:41 发布

阅读量46

点赞数

文章标签：如何在原先的jqgrid中填充新的数据子集和问题算法文本聚类分析算法

聚类是模式识别、机器学习、数据挖掘等领域中的基础算法，在商业选址、金融产品推荐、异常检测等方面有广泛应用，但在实际应用中聚类可能遇到一些现实挑战问题。

物以类聚，人以群分。人们常喜欢与自己在爱好、观点、性格等方面相似的人聚在一起。比如A和B因为相似的爱好成为好友，B和C也因为相似的爱好成为好友，在B的引荐下A和C也逐渐成为好友，从而ABC三人成为了一个朋友圈，这个朋友圈形成的过程就像是机器学习领域中的聚类。聚类算法根据相似性（某种距离度量）将一个样本集合分为若干类别，使得相似的样本在同一类别，不相似的样本在不同的类别，样本就像A、B、C这样的个体。

聚类分析的一般流程包括：特征提取、相似性度量、聚类、结果评估。在朋友圈形成过程的性格、观点、爱好都可视为提取的特征。特征是对样本的本质的抽象，用来度量两个样本的相似程度。聚类过程根据相似性度量对样本进行划分。结果评估估计聚类结果的好坏程度。在一些实际应用中还需要对聚类结果进行解释，以发现新的知识。经典的聚类算法有层次化聚类、划分式聚类、基于密度的聚类、基于图的聚类、基于网格的聚类、基于模型的聚类等。

聚类算法在实际应用中会面临一些现实的挑战问题，最新的聚类算法的研究热点围绕如何解决这些问题：

No.1 如何针对有缺失特征的数据进行聚类？

现实数据经常存在缺失的情况。例如医疗诊断中每个患者的检测报告中并没有包含所有的检测项目，没有检测的项目就是缺失特征，如何在特征缺失的情况下进行聚类是当前研究的一个热点。现有的方法一般是对缺失的样本进行填充后对完整数据矩阵进行聚类分析，常见的填充方法有均值填充、零填充、低秩填充以及EM填充等。这些方法一般将缺失填充过程和后续的聚类过程隔离开来，相互独立。最新的研究考虑如何将填充和聚类两个步骤统一到一个目标函数中进行优化，使得为了聚类更好地填充缺失数据。通过结合先验的领域知识，对缺失值进行更好的估计是该背景下较为可行的方向。

No.2 如何融合多个视图进行聚类？

现实数据经常存在多个视图。医疗诊断中患者检测和诊断报告中既有检测中产生的图像数据（图像视图），又有文本数据（文本视图）。多视图聚类集成多视图的特征以得到优化的聚类结果。处理多视图的聚类算法包括：拼接不同视图形成一个单一视图、融合不同视图的图结构形成一个优化的图结构、综合来自不同视图的核、对不同视图的聚类结构进行后期融合等。多视图聚类的一个关键问题是如何提取不同视图的一致信息和互补信息进行聚类。

No.3 如何利用监督信息进行聚类？

纯无监督聚类被视为一个病态问题。因为不同的准则可以得到不同的聚类结果，而每种聚类结果在现实中都可能是合理的。如果给定某些样本对必须在同一个类中，另一些样本对必须在不同的类中，这些信息被称为监督信息，这些信息将帮助聚类。监督信息可以融合到聚类目标函数中实现聚类模型的优化。

No.4 如何对大规模数据聚类？

大数据背景下，一些经典的算法变得不可操作。例如相似度矩阵的处理就很困难，因为矩阵太大，在常规计算机中难以进行存储和计算。我们可以考虑从完整数据集中采样得到一个子集，这个子集得到的小矩阵可近似地还原出完整集合对应的大矩阵，处理小矩阵会高效和可行得多。采样多个子集然后融合每个子集的结果提供了对大规模聚类的可行途径。在这个任务中，可以有效地利用并行计算技术。

No.5 如何对高维数据聚类？

高维数据聚类是一个挑战问题。在高维空间中，样本具有很强的稀疏性，任意两个样本之间的相似度接近零。经典聚类算法可能会失败，因为它们依据相似性度量对样本进行分组。处理高维数据的常规思路是降维。PCA是常用的降维方法之一，不过PCA方法无法实现复杂的非线性降维。子空间聚类是最近的处理高维数据聚类的新方法。一些算法可以将降维与聚类统一起来，为了聚类实现最优的降维。

No.6 如何提取合适的特征进行聚类？

经典聚类算法中特征提取和聚类是两个独立步骤，特征的提取并没有考虑如何有利于聚类。深度学习提供了联合优化特征提取和聚类两个步骤的途径，聚类结果的评估可以加入到深度特征提取的目标函数中，从而深度特征提取步骤可以优化参数使得提取的特征更适合聚类。最近的研究工作聚焦于考虑如何联合优化一个深度学习模型与一个聚类模型。

No.7 如何自适应地确定聚类个数？

现有聚类算法一般需要预先指定聚类个数，而在现实应用中，很难获取该先验知识。如何自动推断聚类个数、降低对先验知识的依赖是聚类算法面临的一个挑战。在低维空间中设计基于密度的算法是一个可行的解决方案。高维数据首先需要降维，可以学习高维数据的低维表示。在降维后的空间中，设计新型的基于密度的方法并结合可视化结果估计类别个数。表示学习和聚类个数的自适应推断如何联合优化是一个有待解决的问题。

No.8 如何使用聚类算法服务于机器学习的其他方面？

例如利用聚类减少分类任务中样本的人工标注数、发现异常、组合多种聚类算法构造新算法等。使用聚类算法对无标签数据进行分簇，然后寻找少量标注样本与各个簇的数据之间的对应关系，从而实现对无标注样本的快速粗略分类。这可用来指导训练过程。此外，可以使用聚类发现异常或离群点，从而对学习模型进行提升。