聚类分析-K-means clustering 在生物信息学中的应用
聚类是一种涉及数据点分组的机器学习技术。给定一组数据点,可以使用聚类算法将每个数据点到分类到图像中的特定组中。理论上,同一组中的数据点应具有相似的属性和特征,而不同组中的数据点的属性和特征则应高度不同。聚类是无监督学习的一种方法,是用于多领域统计数据分析的常用技术。在生物学领域, 有效地将不同的基因序列集进行有效的分类、功能基因识别、对蛋白质物理化学性质进行聚类可以预测其功能,推导植物和动物的分类,推断出物种的系统发育树,获得对种群固有的结构认识等,成为后基因组时代功能基因研究的重要工具。由于聚类分析应用的广泛性,出现了大量可用的聚类分析软件。常见的聚类分析方法有 K-means clustering, 以及Hierarchical Clustering (层次聚类)。
K-means clustering 简介
K-means由于其简单,好理解,运算速度快的优点,是一种非常常见并且应用很广泛的聚类分析方法。k-means的分析原理如下:首先任取k(分析人员自己设定)个样本点作为k个簇的初始中心,也就是数据集经过聚类得到k个分组;然后对每一个样本点,计算它们与k个中心的距离,把它归入距离最小的中心所在的簇;等到所有的样本点归类完毕,重新计算k个簇的中心;重复以上过程直至样本点归入的簇不再变动(收敛)。这样就将所有的样本划分成了k个组。
K-means聚类分析方法已被成功地应用于生命科学中各领域的研究,如在生物信息学分析中,K-means聚类分析常用于聚类基因表达数据、聚类蛋白质序列、构建系统发育树等。 如蛋白质序列