一起学习关于Biclustering的那点东西-CSDN博客

本文链接：https://blog.csdn.net/qq_34532970/article/details/122277768

双聚类算法之学习记录（1）

前言

前言

在读计算机专业硕士一枚，课题组方向为生物信息学，主要研究方向是双聚类算法。
关于双聚类的研究，目前网上除了论文，很少有人做讲解和记录，这对于研究双聚类算法的初入者来说有些苦难。从接触到现在，我多少有些心得。另外，做记录的主要的目的还是避免闭门造车。
对于记录的知识点若我的理解有错误，还请指正。希望能与同学们和各位大牛们进行讨论。

双聚类简介

双聚类算法适用很多领域，如数据挖掘、图像处理、生物信息学等。双聚类概念是1970年由Hartigan提出，Cheng和Church两人在2000年首次应用于基因表达数据中¹。聚类算法在处理基因表达数据存在两个主要的缺点 ²：

过于全面 ，聚类算法考虑了整个数据集，但是，基因并不是与每个样本都相关，可能只与其中一个样本子集具有相关性；
全部划分，聚类算法将数据集中的每个数据都划分到聚类簇中，然而，根据基因在不同生物过程中的影响，它们可能属于几个簇。

双聚类算法定义很简单，同时处理行和列。但双聚类算法是NP-hard问题³，因此获取良好的双聚类簇是比较复杂的。

背景与意义

首先，我们需要了解什么是基因表达数据以及分析基因表达数据的目的是什么。基因表达数据的定义去搜索引擎一搜就能了解。
处理基因表达数据，是为了发现基因之间的联系。如果两个不同的基因在不同的样本中表现出类似的表达倾向，表明有一个共同的调控模式，反应了它们功能之间的某种互动或关系。

双聚类算法

双聚类算法的研究到现在是22年，出现的大量的、各种各样的算法，然而关于双聚类算法的综述并不多。我喜欢将双聚类算法分为两大类，二进制双聚类算法(Binary Biclustering Algorithm)和非二进制双聚类算法(Non-bianry Biclustering Algorithm)。
二进制双聚类算法，处理的数据为0-1矩阵的形式。常用的处理方法是由经典的算法Bimax所用到的 ⁴，即：
$S = m i n + (m a x - m i n) / 2$
S表示阈值，即数据集中的值高于S，相应二进制矩位置的值置为1，否则为0。其中，max表示当前基因在所有条件下的最大值，min表示当前基因在所有条件下的最小值。
最近几年，二进制双聚类算法的研究越来越多。这是因为相对于非二进制双聚类算法来说，二进制双聚类算法运行速度快，且能有效的降低噪声和异常值的影响。
经典的二进制双聚类算法有：UniBic⁵，QUBIC2⁶，BiBit⁷，Bimax⁸等。
非二进制双聚类算法也有很多，很多相关综述将其分为四大类：
1.贪婪算法(CC²,OPSM⁹,xMOTIFs¹⁰)
2. 分治算法
3. 枚举与穷尽算法(SAMBA³)
4. 分布参数识别算法(FABIA¹¹,BBC¹²)

(注：分治算法中代表算法为Bimax算法， 我以将其划分至二进制双聚类算法中)

评估指标

曾为了双聚类算法的性能评估搞得焦头烂额，不同的论文中用到的评估方法不同。
我总结了一下，通常在合成数据集和真实数据集中进行比较。用合成数据集来检测算法的准确率、噪声影响情况、重叠双聚类簇识别等；在真实数据集中，通常采用GO富集分析、NMI、PPI等方法来判断算法的优异性。GO富集分析可以用R语言和David来完成，NMI和PPI可以用python、matlab等来完成。