分类技术??聚类算法的?镅允迪?齐万代红明万晓红??算法的分析绪论增强自主创新能力促进吉林经济发展摘要:近年来的研究表明,生物基因数据和动植物数据等都具有方向性。这类数据的度量只需要考虑向量数据的方向,数据本身无大小之分,只有方向或相对位置不同。这种特征使得聚类分析时可对数据向量做归一化处理。本文采用了基于方向相似性度量的聚类方法??;??首先基于方向性度量构造目标函数,然后通过不动点迭代法对目标函数优化,获得各个样本的最终稳定状态,最后基于样本的最终状态集利用层次聚类技术实现聚类。相较于传统的聚类算法,由于??在初始化时选定所有方向性数据点作为聚类中心,避免传统聚类算法中出现的对初始化敏感的缺点,且能自组织的求解最优聚类划分,其优势明显可见。关键字:聚类??算法方向相似性?近年来的研究表明,基因数据和动植物数据都具有方向性,也就是说,具有方向性的数据向量的度量只需要考虑向量数据的方向,而此类数据本身无大小之分,只有方向或相对位置不同。这种特征使得聚类分析时可先对数据向量做归一化处理,而后再进行聚类分析。由此可见,研究出有效的、针对方向性数据的聚类算法将会成为分类学发展的关键所在。这正是本文就方向性数据进行聚类的目的及意义。聚类分析基本思想聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。我们所研究的样品或指标之间存在程度不同的相似性。于是根据一批样品的多个观测指标。具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品聚合完毕,这就是分类的基本思想。??聚类方法所谓聚类,就是将数据划分为若干个“簇”,使“簇”之间的距离尽可能的大,“簇”内部的距离尽可能的小。聚类算法就是将一组分布未知的数据进行分类,其目的是寻找隐藏在数据中的规律,并按照某种相似程度的度量,尽可能使具有相同性质的数据归于一类,而不相似的样本归于不同的类。本课题采用??算法【?慷苑较蛐允?萁?芯劾啵珼??劾嗨惴ㄊ歉?莘较蚍植祭砺厶岢龅囊恢终?对方向性数据的相似性度量.即采用余弦相似度作度量,并基于该度量提出了方向相似性聚类方法??,该方法的优势在于通过使用方向相似性度量以及内在集成??和??礁鏊惴ǖ墓?倘?隽?传统聚类对初始化敏感的缺点并且能够自动判断类的容量的问题。首先介绍??和??礁鏊惴ā???算法??算法相似性度量函数的确定?泄?ㄉ枰?屑A质蟹中行畔⒓际豕芾聿?吉林????????.?
降椰彩??∑彩?。???∑彳??%叱:∑孑??%??第一步:初始化中心???。彻,????瑄??。,?海??瑇。??⒏?ㄒ桓觥???跏嫉??剖?鱅?。???灰籰?????崾??耸币籷即为最后的解。由于??算法中设定???。卿,??,八,???。,?荆海??瑇。??沟米詈蟮玫降牟欢?闫涫稻褪茄?臼?葑???????蛭颐怯信肥骄嗬牍?剑?吉林省第四届科学技术学术年会??算法选取向量的归一化内积,即余弦相似性作为相似性度量,来度量向量之间的线性相关性,当两个向量的夹角越小则相似性函数值越大,也即这两个向量越相似。??算法把聚类中心向量设为位置参数,从而定义方向相似度量函数??瑄?炊攘恳丫???橐换??淼姆较蚴?菹蛄縳和聚类中心向量?南嗨菩裕?.?噦辵????%?????算法的目标代价函数的确定及优化通过对中心向量?那蠼猓?偻ü?圆欢?憬?杏邢薮蔚??辞蟮闷渥钣沤?由此可见,??算法的基本思想就是通过求?”为最后的解来计算目标函数的最大值。??算法具体步骤为避免算法对初始化的敏感性从而陷入局部最小点,??算法选取全部的样本点作为初始聚类中心。经过有效次迭代过程找到所有最优聚类的不动点。??算法具体步骤如下:第二步:根据式??扑阆嗨菩圆舛认蛄縎?啊??,??。第三步:根据式??扑鉼?“??剖?鱅??。第四步:重复计算第二步,第三步,直到满足?终的收敛点,也就是如果两个数据样本所对应的初始聚类中心都收敛于同一不动点,那么这两个样本数据就同属于一个类。因此通过??算法,不但可以计算出样本数据的聚类中心,还可以对样本数据进行有效的分类,这种最优交互迭代过程就是数据的自组织过程,也就是??算法的基本思想。??惴?聚类的最终目的是计算最优的聚类数,由于通过??算法得到都是最终不动点,就是说,每一个向量都是一个单独的类,因而采用经典的凝聚层次聚类算法???????????????捶?析最终不动点的层次数。??饕7椒ㄊ腔?谂肥暇嗬胱魑O嗨菩远攘考皊???????椒?叉称临近法????惴ǖ幕?静街杈褪羌扑悴欢?阒?涞呐肥骄嗬耄?ň嗬胄〉牧礁霾欢?阕楹显谝黄穑?欢??数减一,继续计算其他不动点之