html语9568义化的标签demo,一种基于密度语义子空间的文本与图像无标签识别的方法与流程...-CSDN博客

本发明属于文本与图像聚类领域，具体涉及一种基于密度语义子空间的文本与图像无标签识别的方法。

背景技术：

：无标签识别即聚类，由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。数据聚类是数据分析和数据挖掘的基本任务，旨在揭示数据集的潜在固有结构，在许多领域受到广泛应用，包括机器学习，数据挖掘，模式识别，图像分析以及生物信息。K均值(K-Means)是传统的聚类算法，采用欧几里德距离上的差异性来对模式进行分组，但算法收敛太慢，需要先确定K值，且对噪声和离群点敏感，无法保证全局最优。最佳K均值(MaxMinK-means)考虑了样本的方差，通过最小化组内方差的同时最大化组间方差来实现K-Means算法，仍然是直接的聚类算法，对于复杂的数据无法很好区分。子空间聚类算法(SSC)假设同类样本间具有相似的语义结构，其语义结构通常可以使用数据的稀疏性、低秩性或者每一数据的临近样本所刻画。具有相同语义结构样本分布在一个特定的子空间当中。也就是说，整个数据集是分布在多个不相交的子空间的并集之上。不同的语义空间刻画方法产生了不同的子空间学习算法，如：基于压缩感知思想的稀疏子空间聚类与低秩子空间聚类；基于最近邻的贪婪子空间聚类。基于压缩感知的语义空间学习算法主要利用了数据分布的稀疏特性以及低秩特性。而为了提高子空间算法的抗噪能力，文献“Y.X.WangandH.Xu,“NoisySparseSubspaceClustering,”JournalofMachineLearningResearch,vol.17,no.3,p.689C708,2013.”提出了抗噪稀疏子空间聚类(NSSC)。文献“M.Yin,J.Gao,andZ.Lin,“LaplacianRegularizedLow-rankRepresentationandItsApplications,”IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.38,no.3,pp.504–517,2016.”提出了基于拉普拉斯正则图的低秩子空间算法(LapLRR)改进了原有的低秩子空间聚类。该方法通过对样本引入图结构提高了原始LRRC在数据的局部流形结构上的适应能力。文献“XuW,LiuX,GongY.Documentclusteringbasedonnon-negativematrixfactorization[C]Proceedingsofthe,InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval,July28-August1,2003,Toronto,Canada.DBLP,2003:267-273.”基于非负矩阵分解(NMF)的聚类算法，NMF基于生物学中的一个很好的研究结论，即人体的感知系统往往是从局部到整体的，对于同一类的物体，人类在观察的过程中感知的局部特征往往具有相似性。因此，通过对整个数据集做非负矩阵分解可以得出样本的局部描述。这种局部的描述正好符合语义空间的特性。子空间聚类算法的语义表示呈现出线性结构，但与实际的数据不符，在实际的应用中，数据多呈现流行结构。局部保持投影(LPP)受到了经典的流形学习算法——拉普拉斯特征映射(LE)的启发，采用了一种更有效的方式去线性逼近LE。LPP首先在样本原始表征空间上构建出连接图，然后通过映射F，将高维空间中的样本映射至语义空间。在这个过程中，LPP保持高维空间中相临近点之间的距离，即原始空间中相近的两个点，经过LPP投影至语义空间的基向量之上时仍然能够保持相对距离。但局部保持投影是通过距离保持的方式揭示数据语义子空间结构，其本质为刚性变化，这使得在维数下降的过程中无法保持数据整体结构。此外，谱聚类(NC)是也是一类具有代表性的通过寻找数据语义空间表示的聚类算法。该类算法主要基于谱图理论的思想，将聚类问题转化为样本连接图的切割问题，使得切割后的每一个分支具有最大的组内相似度，以及最小的组间相似度。该类问题通常可以将图分割的问题转化为关于图拉普拉斯矩阵的瑞丽熵最大化的问题。通过瑞丽熵性质，这个过程等价于求解图拉普拉斯矩阵的特征值问题，而样本的子空间结构则由特征值问题所得的特征向量所决定，因此被称为谱聚类方法。不同的切割方法产生了不同谱聚类方法，如Ratio切割、Average切割、正则切割、以及最大最小切割。广义上来说，文献“ZhangT,TangYY,FangB,etal.DocumentClusteringinCorrelationSimilarityMeasureSpace[J].IEEETransactionsonKnowledge&DataEngineering,2012,24(99):1-1.”给出的基于相关系数保持的文本的聚类方法(CPI)也可以归为谱聚类算法。该方法通过将文本数据投影至相关系数语义子空间，使得处于某一局部的数据的相关系数最大，而同时与该局部区域以外的样本的相关系数尽可能的小。但谱聚类算法对于维度非常高的聚类,降维度幅度不够,运行速度和聚类效果均不好。技术实现要素：鉴于此，本发明的目的是提供一种基于密度语义子空间的文本与图像无标签识别的方法。本发明通过学习高维数据集的子空间表示，使得数据集在几何结构上适合于经典的分类算法。本发明的目的是通过以下技术方案实现的，一种基于密度语义子空间的文本与图像无标签识别的方法，包括以下子步骤：S1：利用高斯核函数估计原始空间的样本密度；S2：采用柯西核函数估计本征语义空间的密度；S3：最小化目标函数，结合原始空间的样本密度函数和本征语义空间的密度函数得到目标函数，采用最速下降法将目标函数最小化，得到数据的低维语义空间表示；S4：语义空间聚类，采用K均值算法来实现语义空间中的聚类。进一步，在步骤S1中，所述估计原始空间的样本密度具体为，假设为m维原始空间中的样本，则样本真实分布f的密度估计子为式中，X为m维原始空间中的样本，xi为原始空间样本表示的第i个样本，N为样本个数，为核密度估计子，x为样本变量，g(·)为高斯核函数，cg,m为表示与m维核函数g(·)相关的密度函数归一化系数，m为原始样本维度，hf为核函数窗口大小，hfm为hf的m次方。进一步，在步骤S2中，所述估计本征语义空间的密度具体为，假设为样本在d维本征语义空间中的表示，则真实分布g的密度估计子为式中，Y为样本在本征语义空间中的表示，yi为第i个样本表示，N为语义空间中的样本个数，为核密度估计子，k(·)为柯西核函数，ck,d表示与d维核函数k(·)相关的密度函数归一化系数，d为语义空间样本维度，hg为核函数窗口大小，x为样本变量，hgd为hg的d次方。进一步，在步骤S3中，所述目标函数具体为，式中，y为原始样本x在语义空间的表示，其梯度记为则所述最速下降法有如下迭代公式，其中，ak为第k步的迭代步长，通过一维搜索方法求得。本发明具有如下的优点：本发明通过学习高维流形到本征维数空间中的保局部体积的同胚变换来使得数据的流形结构清晰化，从而有效的解决了小样本聚类问题。根据本发明实施例可知，本发明发掘的小样本数据语义空间具有很清晰的结构，呈现出局部紧致化全局可分的特性，故而有较好的聚类效果。相比与其他语义空间的聚类算法，本发明对语义空间维数有很好的鲁棒性，特别是在极端低的维数下，本发明仍然能够表现出很高的聚类精度。因此，本发明能够实现可视化要求的聚类任务。附图说明为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：图1为系统框架流程图；图2为瑞士卷经同胚变换示意图。图3为COIL20上的目标；图4为手写体“0-9”。具体实施方式以下将结合附图，对本发明的优选实施例进行详细的描述；应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。一种基于密度语义子空间的文本与图像无标签识别的方法，包括S1.估计样本密度，利用高斯核函数估计原始空间的样本密度。S2.估计语义空间样本密度，采用柯西核函数估计本征语义空间的密度。S3.最小化目标函数，结合原始空间密度函数和本征语义空间密度函数得到目标函数，采用最速下降法将之最小化，得到数据的低维语义空间表示。S4.语义空间聚类，采用K均值算法来实现语义空间中的聚类，其系统框架流程图如图1所示。核密度估计由Rosenblatt(1955)和EmanuelParzen(1962)提出，又名Parzen窗，属于非参数估计方法之一，提供了确定数据密度。其严格的定义可如下表述：假设X＝{x1,x2,…,xn}独立的采样自同一分布f，则根据样本X可得到分布f的估计值满足：其中，X为样本的整体表示，x1……xn为单个样本表示，K(x)为m元函数，称为核函数；H为一对称矩阵，称为带宽矩阵，它与核函数的平滑度相关，直观上度量了核函数开口的大小；KH为以窗口大小为H核函数，xi为第i个样本表示，x为样本变量，n为样本个数，也称为真实分布f的核密度估计子。通常，K(x)为紧支撑的有界函数，它满足如下条件：∫xK(x)dx＝0,lim‖x‖→∞‖x‖mK(x)＝0(2)∫K(x)dx＝1,∫xxTK(x)dx＝μ(K)I其中，u(K)为一常数，I为单位矩阵，x为样本变量，m为样本维度。一般地，多元核函数K(x)可通过一元核函数K1(x)按如下两种生成方法：式中，KP(x)为乘积结构核密度估计子，KS(x)为径向对称核密度估计子，ak,m为K1(‖x‖)的归一化系数(此处两个k等同核密度函数)，m为样本维度，为了归一化核函数，有可以验证，如上定义的两类核函数均满足条件(2)。在密度子空间分布学习聚类(ClusteringbyLearningtheDensityofSemanticSpace，LDSC)中，本发明采用一类径向对称的特殊核函数：K(x)＝ck,mk(‖x‖2)(4)其中，ck,m为归一化常数，使得上述定义核函数能够满足定义域上积分为1；k(·)为非负函数称为核函数K(x)的轮廓。可以验证，该定义符合条件(2)，为一恰当的核函数。J.K.Moser在文献[MoserJ.OntheVolumeElementsonaManifold[J].TransactionsoftheAmericanMathematicalSociety,1965,120(2):286-286.]中证明了，在满足一定条件的两个流形之间存在着保持二者局部体积的同胚变换。Moser定理的具体内容如下：定理2.1：假设(M,TM)与(N,TN)为相互同胚的两个闭连通可定向d维可微流形。τM、τN分别为流形上的体积形式(即处处不为零的d-形式)满足∫MτM＝∫NτN。则，存在M和N之间的微分同胚，φ：M→N，使得τM＝φ-1τN，也就是说，M上体积形式与N上体积形式在φ下的原相相同。由Moser定理可知，如果两个流行的“整体形状”(即同胚)相同，并且具有相同的总体积。则存在微分同胚φ使得两个流形上的局部体积相同。如图2给出的瑞士卷儿，其面积与展开之后的平面相同。因此，可以找到同胚映射，使得其局部体积得到保持。这种局部保持的特性能够很好的被应用在聚类或者分类问题当中。事实上，在分类问题中，对于数据集的有如下合理的假设，即数据集是由不同类的多组样本构成，而同一类样本间的相似度较高，而不同类样本间的相似度较低。部分聚类算法，如子空间聚类，假设每一类样本是分布在一个独立的子空间当中。因此，由Moser定理可知，存在微分同胚使得同类样本所在局部结构的体积在另一个同胚的流形上得到保持，换句话说，如果能将建立流形所在外围空间与本征维语义空间之间的微分同胚映射，则能够实现高维流形在语义空间中的表示。如图2所示右边为瑞士卷经过同胚变换后的几何结构。显然，经过同胚变换瑞士卷的几何结构变得简单清晰。本发明的LSCD算法可大致描述为如下步骤：1、估计样本密度：假设为m维原始空间中的样本，则样本真实分布f的密度估计子为式中，X为m维原始空间中的样本，xi为原始空间样本表示的第i个样本，N为样本个数，为核密度估计子，x为样本变量，g(·)为高斯核函数，cg,m为表示与m维核函数g(·)相关的密度函数归一化系数，m为原始样本维度，hf为核函数窗口大小，hfm为hf的m次方。2、估计语义空间样本密度：假设为样本在d维本征语义空间中的表示，为了模型的适应性和有别于X的估计，本发明步骤2采用柯西核函数，则真实分布g的密度估计子为式中，Y为样本在本征语义空间中的表示，yi为第i个样本表示，N为语义空间中的样本个数，为核密度估计子，k(·)为柯西核函数，ck,d表示与d维核函数k(·)相关的密度函数归一化系数，d为语义空间样本维度，hg为核函数窗口大小，x为样本变量，hgd为hg的d次方。3、最小化目标函数：估计完密度样本及其语义表示密度之后，目标函数为式中，y为原始样本x在语义空间的表示，其梯度记为则所述最速下降法有如下迭代公式，其中，ak为第k步的迭代步长，通过一维搜索方法求得。4、语义空间聚类：通过上述过程，得到了样本的语义空间表示，此时样本在语义空间中已经有了很好的区分度。在局部上，同类样本间有了很好的紧致性，而全局上，不同类样本有较好的区分度。本发明采用K均值算法来实现语义空间中的聚类。相对于核函数的选择，带宽矩阵对于核密度估计有着更重要的意义。它直接影响核密度估计子偏差与方差之间的平衡，这与核密度估计子的精确程度密切相关。理论上，任何对称矩阵都可以作为带宽矩阵H。然而，为了计算的简便，本发明选取对角矩阵作为带宽矩阵，即或者更特殊的形式H＝h2I，不失一般性，在本发明的LDSC的算法中，本发明使用后一种形式。因此，本发明核密度估计子对最终形式:在参数估计当中，通常使用均方误差(MSE)来度量参数估计子与真实参数θ的相似程度，即：通过简单的分解，MSE可表示为参数估计子方差与偏差平方之和，即：然而，核密度估计子本质上是一个分布函数，因此无法直接均方误差来衡量估计的好坏，借用MSE的思想，可以使用积分均方差(MISE)来度量近似程度，即：显然，核密度估计子^的好坏与它的方差及其偏差密切相关。实施例1：1、比较对象分析通过分析以往的聚类技术，K均值(Kmeans)、MaxMin-K均值、谱聚类(NC切割准则)、局部保持投影(LPI)以及稀疏子空间聚类(SSC)作为较为常用的聚类技术，且在正常情况下对聚类问题取得了较好的效果，因此本实施例选取以上五种方法作为比较对象。2、对象选取本实施例分别在图像、抽象数据、文本上分别做聚类实验，这些数据集都表现出样本维数大于样本个数的特点。下面简要说明本实施例中所有数据集的格式等问题。2.1图像数据图像数据集本实施例采用哥伦比亚大学物品数据集COIL(ColumbiaUniversityImageLibrary)20，包括了1440张共20类不同的物体，每一类包含了72张图片。如图3所示，在每一类中，每一个样本为64×64像素的灰度图片，当使用向量化表示时，其样本的维数4096大于样本的个数1440。2.2文本数据本发明实施例的文本数据集采用路透社编号为21578的新闻文档，在这个数据集里共有21578篇文档，一共涵盖了135个主题。对于每一篇文档，本实施例采用经典的词频向量来表示，其维数为18933。由于部分文档可能属于多个主题即可能有多个标签，因此本实施例采用其中具有唯一标签的30类样本来进行，此时样本的个数为8067远小于样本的维数18933。如表2.1所示，表示了本实施例所用子数据的主题及对应样本数目。2.3抽象数据本实施例的选择了具有抽象表示的数据作为又一对象以验证本发明的LDSC算法的广泛使用性。多特征手写体数据包含了100种图4中不同笔迹下的0-9手写体数据的抽象特征，其中特征形式包括傅里叶系数、相关稀疏、Karhunen-Love系数、窗口平均值、Zernike矩以及形态学特征等。为了更好的表现出本发明的LDSC算法处理小样本数据的能力，本实施例选择其中维数最高的特征，即相关系数特征(216维)。3、实施方式在每个数据集上分别随机选取10类数据，并进行50次统计其均值与标准差。以路透社21578文本数据为例，本实施例在30类数据中进行。对类别的取值K，遍历2到10类。对于每一个K，取30类中的随机K组合50次，最后统计这50次的结果。当无法组合数小于50时，通过对每一种可能重复多次统计其结果。在算法的参数选择上，本发明的LDSC算法最主要的参数为语义空间维数d，为了计算速度的考虑，本实施例选择d＝2。在下一节本实施例将证明，本发明的LDSC算法对语义空间维数的选择有着很好的鲁棒性。对于K均值算法，本实施例选择迭代次数为10000。而MaxMin-K均值的参数设定，本实施例遵循文献[G.Tzortzis,A.Likas,andG.Tzortzis,“TheMinmaxK-meansClusteringAlgorithm,”PatternRecognition,vol.47,no.7,p.2505C2516,2014]中的设定。在谱聚类算法中，其中的一个重要参数为连接图权重矩阵的选择，在本实施例中采用K近邻准则构建连接图，采用欧式距离作为两个连接顶点的权重。4、评价标准聚类算法的效果可以通过比较算法得出的标签与样本标签的匹配程度来衡量。在计算具体的匹配程度时有两种应用较为广泛的标准(精确度)以及正则化互信息。下面简要的介绍这两种度量方式。4.1精确度(Accuracy)假设表示来自于标准数据集的标签，而表示本实施例的样本标签。则算法A的精度为其中，AC为聚类精度，N为样本总数，δ(x,y)为特征函数，当x和y相等时为1，否则为0，si为第i个样本在算法下得到的标签，map(ri)为将R中的标签与S中的标签一一对应的置换映射，可采用匈牙利算法实现，其中ri为真实标签。显然，如果标准标签S与本实施例标签样本R完全相同时，则算法的聚类精度为1。4.2正则化互信息(NMI)另一类度量聚类精度的标准为正则化互信息。假设聚类算法得出的结果为C＝{c1,…,cK}，其中c1为同类样本的集合。对应地，C′＝{c′1,…,c′K}表示数据集给出的正确聚类分组。于是，定义互信息为：其中，p(c)，p(c′)表示随机选择一个样本，其属于类别c或者c′的概率；p(ci,c′j)为其联合概率。显然，与精确度相比，互信息对数据规模比较敏感。其原因在于计算概率时，往往以频率代替概率，当样本数目较大时，互信息越准确。通常，需要使用正则化的互信息作为度量标准，即H(C)表示C的信息熵。5、结果本实施例使用K均值(Kmeans)、MaxMin-K均值、谱聚类(NC切割准则)、局部保持投影(LPI)以及稀疏子空间聚类(SSC)在图像、抽象数据和文本上分别做聚类实验，并采用精确度和正则化互信息两种评价标准分析结果，得到如下聚类精度对比表：COIL20，本发明的LDSC算法及其对比效果如表2、表3所示：本实施例同时采用两种标准(精确度)及正则化互信息来衡量本实施例的效果。从表中可以看出，本发明的LDSC算法在各中类别情形下，其聚类效果较其他算法有明显优势，且标准差显示出本发明的LDSC算法的稳定性也优于其对比算法。值得指出的是正则化互信息出现反常的情况以及文本数据路透社21578的聚类效果统计在表4及表5中，同样可以发现，无论是评价聚类精度还是算法稳定性，本发明的LDSC算法均优于其他算法。LPI由于无法适应低维数的语义空间，因此表现最差。本发明实施例表明，本发明的LDSC算法不仅适合传统的图像聚类问题，同时也能够处理文本数据的聚类问题。表6、表7给出了本发明的LDSC算法及其对比算法在抽象特征(相关系数)的手写体上的聚类效果。在相同的实验设定下，再次证明本发明的LDSC算法在抽象特征的数据分类问题上仍然优于其对比算法。值得指出的是，由于该数据集仅有10类，在K＝10的条件下，其组合数为1。因此，K＝10的时候无法计算其标准差。通过在COIL20、路透社21578以及抽象特征手写体等数据上的聚类实验可以判定，本发明的LDSC算法优于常见的基于欧式空间的聚类算法，同时本发明的LDSC算法也优于SSC以及LPI这两种语义空间的聚类算法。其原因在意，SSC的语义空间不够明确，由于语义空间表示的维数较高，携带的信息不够简洁进而不具备很好的区分度。同时，由于冗余字典的存在，导致语义空间结构包含了较多的重复信息。而LPI由于无法适应较低的语义空间维数，因此表现不良。表1.路透社21578上的30类单标签样本类别样本类别样本类别样本工资3713供给87钢铁37ACQ2055GNP63IPI36原料321CPI60石油33贸易298可可53蔬菜30FX245铝45锡27利率197粮食45棉花24海运142铜44BOP23糖114就业42WPI20咖啡110储蓄38宠物19黄金90橡胶38畜牧18表2.COIL20上的聚类精度LDSCKmeansMaxMinNCLPISSC298.47±3.7293.28±10.8791.67±11.9189.65±11.6491.80±12.5997.37±5.42391.51±12.0379.09±18.9082.30±14.6878.88±16.6782.27±17.2288.81±14.88491.76±8.8574.38±14.2580.12±13.1574.98±14.4670.83±14.5483.78±15.26589.43±10.0772.49±11.9273.78±16.5770.10±13.2669.01±13.0679.81±15.33690.47±8.6168.87±10.6177.84±11.2870.14±12.4768.81±11.2381.54±13.36786.78±9.7565.27±10.7170.26±8.6564.20±8.7962.58±11.5974.09±13.26884.39±9.0162.58±10.4767.18±8.3562.86±9.2160.32±8.1268.77±11.67982.12±7.0663.52±8.2467.45±8.4161.45±7.5359.71±8.0767.42±10.121079.85±7.7561.12±8.2864.97±7.5059.99±6.7057.45±7.8262.81±9.23ave.88.31±8.5471.18±11.5875.06±11.1770.25±11.3069.21±11.5878.27±12.05表3.COIL20上的聚类互信息LDSCKmeansMaxMinNCLPISSC294.56±12.1979.32±27.1472.86±26.7768.53±28.8676.39±30.0491.13±17.58385.06±19.3269.62±25.2267.80±20.9064.16±24.7269.19±27.3682.74±19.37488.41±10.3472.46±14.0071.96±14.6766.52±15.9865.53±16.1581.63±16.21587.32±10.5572.18±12.2270.57±13.3165.06±14.1565.58±15.6780.19±14.53689.84±8.1275.85±8.5175.88±10.3470.96±11.3168.95±11.2383.97±10.73787.64±8.4271.93±9.2471.56±8.3965.99±9.0664.90±1.3878.87±11.13886.14±7.2970.75±8.7470.27±7.5965.72±8.4861.91±9.2676.45±9.01984.99±5.2271.50±5.5670.28±6.2864.60±6.0961.65±8.2775.96±7.271084.46±6.1770.30±6.7870.57±5.8064.61±5.5560.43±8.0673.71±7.28ave.87.61±10.8372.65±13.0571.31±12.6766.24±13.866.06±14.1680.52±12.54表4.路透社-21578上的聚类精度LDSCKmeansMaxMinNCLPISSC290.11±10.6287.89±12.3387.17±11.8888.60±13.2886.73±12.3887.50±13.86389.35±8.6583.86±12.5185.65±9.7082.29±12.8082.10±12.8079.48±13.22485.54±7.6179.43±11.1482.30±8.4979.16±12.5467.24±9.6575.59±12.03579.84±9.9473.21±10.5375.00±10.0272.47±10.0960.31±8.7268.42±10.90676.57±11.4971.36±9.8475.30±10.3570.06±12.1052.34±8.8665.25±8.98775.78±7.5969.95±8.3571.29±9.1170.39±9.2349.77±7.5965.23±9.66872.82±9.3466.87±8.1870.83±8.6966.94±8.4460.32±8.1261.49±8.81971.41±7.1165.81±7.0069.69±6.0466.10±7.7740.21±5.5061.87±6.611069.74±6.0763.83±6.1867.52±5.0465.38±6.1138.13±4.9458.12±6.96ave.79.02±8.7173.58±9.5676.08±8.8173.49±10.2657.79±8.4669.22±10.11表5.路透社-21578上的聚类互信息LDSCKmeansMaxMinNCLPISSC263.54±26.7461.11±27.7257.53±26.7362.20±13.2858.01±29.7659.41±29.39372.75±13.9568.57±15.0466.54±14.5566.69±16.1665.57±14.6060.93±15.88470.82±10.7568.26±11.6465.80±11.4668.48±12.8158.08±9.0961.73±13.01568.03±10.9765.50±10.0662.99±10.2165.62±9.5355.19±7.8457.39±10.08666.32±11.3265.09±9.3664.81±10.3263.94±10.6049.88±7.5857.55±8.15767.84±7.6166.40±7.0464.44±7.9865.86±8.0548.18±6.3759.24±8.65867.26±7.6264.29±7.0064.32±7.9263.77±8.4443.81±5.8057.93±8.19966.64±6.1164.07±5.9664.31±5.2763.91±6.5641.95±5.1158.76±5.841066.35±5.1363.65±5.0064.04±4.6463.60±5.2141.10±4.1356.59±5.86ave.67.73±11.1365.21±10.9863.86±11.0164.90±10.0757.31±10.0358.84±11.67表6.抽象特征手写体上的聚类精度果LDSCKmeansMaxMinNCLPISSC297.29±3.7993.27±9.8794.35±6.7494.51±9.6196.20±5.2497.64±3.98394.92±3.4586.09±14.0085.80±16.2288.87±10.6189.33±10.6393.79±9.88492.93±4.2780.43±12.6181.58±10.9684.39±10.5976.98±11.7088.87±12.19592.58±2.8175.49±10.2175.81±10.3379.87±9.9373.39±7.8185.50±11.33690.55±3.6671.20±8.1970.55±7.5875.00±9.4563.81±6.6182.13±10.73788.43±3.8165.05±7.9869.54±6.8572.67±8.5258.60±4.0980.76±8.82887.04±3.1263.42±7.0865.21±11.1967.88±6.4855.08±4.0778.74±8.38987.05±1.4863.49±3.8566.78±4.1068.58±6.1051.26±2.8375.11±5.641084.99±061.71±062.80±063.92±048.13±072.94±0ave.90.64±3.2973.35±8.6974.71±8.1177.30±8.5468.09±6.0984.35±9.21表7.抽象特征手写体上的聚类精度果LDSCKmeansMaxMinNCLPISSC286.65±15.382.12±2.0475.27±21.0376.08±19.8681.79±17.2688.65±15.99384.71±8.9378.13±15.5970.21±13.5874.03±13.0674.70±12.4885.48±11.86483.2±7.3174.25±9.6366.57±10.2772.21±8.4163.58±11.2282.25±9.71584.4±4.8673.54±8.4364.43±7.9370.31±6.7260.85±7.8280.94±7.36682.05±5.472.55±6.1262.50±5.7567.49±5.6056.75±4.8879.63±6.87781.12±4.2171.83±6.5763.84±5.2168.13±5.3452.31±3.6879.82±4.89879.72±3.9371.46±5.0463.21±11.9067.07±4.2750.70±2.8679.11±4.52980.09±1.3870.36±4.5165.52±2.3467.70±4.1950.10±2.8677.19±3.981079.56±074.75±065.98±066.38±048.59±077.76±0ave.82.38±6.4274.33±9.1766.39±9.0269.93±7.1859.93±7.0881.56±7.71以上所述仅为本发明的优选实施例，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。当前第1页1&nbsp2&nbsp3&nbsp