Biopython聚类分析
Biopython聚类分析详细操作教程
聚类分析会将一组对象归为同一组。这个概念主要用于数据挖掘,统计数据分析,机器学习,模式识别,图像分析,生物信息学等。可以通过各种算法来了解群集如何广泛用于不同的分析中。
根据生物信息学,聚类分析主要用于基因表达数据分析中,以寻找具有相似基因表达的基因组。在本章中,我们将检查Biopython中的重要算法,以了解在真实数据集上进行聚类的基础知识。Biopython使用Bio.Cluster模块来实现所有算法。它支持以下算法-
层次聚类
K-聚类
自组织映射
主成分分析
下面对以上算法进行简要介绍。
1. 层次聚类
层次聚类用于通过距离度量将每个节点链接到其最近的邻居,并创建一个聚类。Bio.Cluster节点具有三个属性:left, right 和 distance。下面创建一个简单的集群,如下所示:
# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> fromBio.Cluster importNode
>>> n = Node(1,10)
>>> n.left = 11
>>> n.right = 0
>>> n.distance = 1
>>> print(n)
(11, 0): 1
如果要构建基于树的集群,请使用以下命令 -
# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> n1 = [Node(1, 2, 0.2), Node(0, -1, 0.5)] >>> n1_tree = Tree(n1)
>>> print(n1_tree)
(1, 2): 0.2
(0, -1): 0.5
>>> print(n1_tree[0])
(1, 2): 0.2