机器学习:双聚类算法

PS:因为没有找到实际应用的场景,所以两个示例直接采用了官网的示例。以后遇到实际的应用场景了,再替换成实际的例子。

1.算法简介

       双聚类简单来说就是在数据矩阵A中寻找一个满足条件矩阵B1的子矩阵A1,而B1是条件矩阵B的一个子矩阵.

2.算法常用的计算模型

       目前定义双聚类算法有四种比较广泛的方式:(括号中为sklearn官网的说法)

2.1等值模型(常数值,常量行或常量列)

2.2加法模型(低方差的子矩阵) 

2.3乘法模型(异常高或低的值) 

2.4信息共演模型(相关的行或列) 

3.两种特殊的双聚类结果(sklearn官网有算法的) 

3.1对角线结构

3.2棋盘格结构

4.双聚类的两种算法

        双聚类的算法有很多种,这里只介绍sklearn官网提供的两种算法,也就是上述两种特殊结构的算法。

4.1光谱联合聚类(Spectral Co-Clustering)

        说明:因为我们不自己动手写算法,所以这里的公式就略过了。

4.1.1 算法作用

       该算法找到的值高于相应的其他行和列中的值。每行和每列只属于一个双聚类,因此重新排列行和列中的这些高值,使这些分区沿着对角线连续显示。

4.1.1 主要计算过程

      1)按照数学公式对矩阵进行预处理

      2)对处理后的矩阵进行行和列的划分,之后按照另外一个数学公式生产一个新的矩阵Z

      3)对矩阵Z的每行使用k-means算法

4.1.2 sklearn中的函数

     1) sklearn.cluster.bicluster. SpectralCoclustering

     2)主要参数(详细参数)

       n_clusters :聚类中心的数目,默认是3

       svd_method:计算singular vectors的算法,‘randomized’(默认) 或 ‘arpack’.

       n_svd_vecs :计算singular vectors值时使用的向量数目

       n_jobs :计算时采用的线程或进程数量

  3)主要属性

       rows_ :二维数组,表示聚类的结果。其中的值都是True或False。如果rows_[i,r]为True,表示聚类i包含行r

      columns_:二维数组,表示聚类的结果。

      row_labels_ :每行的聚类标签列表

      column_labels_ :每列的聚类标签列表

 4)官网示例

import numpy as np
from matplotlib import pyplot as plt

from sklearn.datasets import make_biclusters
from sklearn.datasets import samples_generator as sg
from sklearn.cluster.bicluster import SpectralCoclustering
from sklearn.metrics import consensus_score

data, rows, columns = make_biclusters(
    shape=(300, 300), n_clusters=5, noise=5,
    shuffle=False, random_state=0)

plt.matshow(data, cmap=plt.cm.Blues)
plt.title("Original dataset")

data, row_idx, col_idx = sg._shuffle(data, random_state=0)
plt.matshow(data, cmap=plt.cm.Blues)
plt.title("Shuffled dataset")

model = SpectralCoclustering(n_clusters=5, random_state=0)
model.fit(data)
print(model.rows_[0])
print("*******************************************")
print(model.rows_[1])
score = consensus_score(model.biclusters_,
                        (rows[:, row_idx], columns[:, col_idx]))

print("consensus score: {:.3f}".format(score))

fit_data = data[np.argsort(model.row_labels_)]
fit_data = fit_data[:, np.argsort(model.column_labels_)]

plt.matshow(fit_data, cmap=plt.cm.Blues)
plt.title("After biclustering; rearranged to show biclusters")

plt.show()

下面三个图依次表示:原始数据、打乱后的数据、聚类后的效果图

4.2光谱双聚类(Spectral Biclustering)

4.2.1 算法作用

      该算法假定输入的数据矩阵具有隐藏的棋盘结构,因此可以对其中的行和列进行划分,使得行簇和列簇的笛卡尔积中的任何双聚类的条目近似恒定。例如,如果有两个行分区和三个列分区,则每行将属于三个双聚集,而每列将属于两个双聚集。

      该算法对矩阵的行和列进行划分,使相应的blockwise-constant棋盘格矩阵能够很好地逼近原始矩阵。

4.2.2 主要计算过程

     1)对矩阵进行归一化

     2)计算前几个singular vectors 值(奇异向量?总感觉这么翻译很别扭)

     3)根据这些singular vectors值进行排序,使其可以更好的通过piecewise-constant向量进行近似表示

    4) 使用一维k均值找到每个向量的近似值,并使用欧几里德距离进行评分

    5) 选择最佳左右singular vectors的一些子集

    6) 将数据投影到这个singular vectors的最佳子集并聚集

4.2.3 sklearn中的函数

     1) sklearn.cluster.bicluster.SpectralBiclustering

     2)主要参数(详细参数)

       n_clusters :单个数值或元组,棋盘结构中的行和列聚集的数量

       method:把singular vectors值归一化并转换成biclusters的方法。默认值是‘bistochastic’。

    3)主要属性

       rows_ :二维数组,表示聚类的结果。其中的值都是True或False。如果rows_[i,r]为True,表示聚类i包含行r

      columns_:二维数组,表示聚类的结果。

      row_labels_ :每行的分区标签列表

      column_labels_ :每列的分区标签列表

 4)官网示例

import numpy as np
from matplotlib import pyplot as plt

from sklearn.datasets import make_checkerboard
from sklearn.datasets import samples_generator as sg
from sklearn.cluster.bicluster import SpectralBiclustering
from sklearn.metrics import consensus_score

n_clusters = (4, 3)
data, rows, columns = make_checkerboard(
    shape=(300, 300), n_clusters=n_clusters, noise=10,
    shuffle=False, random_state=0)

plt.matshow(data, cmap=plt.cm.Blues)
plt.title("Original dataset")

data, row_idx, col_idx = sg._shuffle(data, random_state=0)
plt.matshow(data, cmap=plt.cm.Blues)
plt.title("Shuffled dataset")

model = SpectralBiclustering(n_clusters=n_clusters, method='log',
                             random_state=0)
model.fit(data)
score = consensus_score(model.biclusters_,
                        (rows[:, row_idx], columns[:, col_idx]))

print("consensus score: {:.1f}".format(score))

fit_data = data[np.argsort(model.row_labels_)]
fit_data = fit_data[:, np.argsort(model.column_labels_)]

plt.matshow(fit_data, cmap=plt.cm.Blues)
plt.title("After biclustering; rearranged to show biclusters")

plt.matshow(np.outer(np.sort(model.row_labels_) + 1,
                     np.sort(model.column_labels_) + 1),
            cmap=plt.cm.Blues)
plt.title("Checkerboard structure of rearranged data")

plt.show()

 下面四个图依次表示:原始数据、打乱后的数据、进行双聚类重排后的数据、按棋盘结构排列的数据

 


为帮助更多对人工智能感兴趣的小伙伴们能够有效的系统性的学习以及论文的研究,小编特意制作整理了一份人工智能学习资料给大家,整理了很久,非常全面。

大致内容包括一些人工智能基础入门视频和文档+AI常用框架实战视频、计算机视觉、机器学习、图像识别、NLP、OpenCV、YOLO、pytorch、深度学习与神经网络等学习资料、课件源码、国内外知名精华资源、以及AI热门论文等全套学习资料。


 需要以上这些文中提到的资料,请点击此处→【人工智能全套完整VIP资料】 即可免费获取。

看完三件事❤️

  • 如果你觉得这篇内容对你还蛮有帮助,我想邀请你帮我三个小忙:
  • 点赞,转发,有你们的 『点赞和评论』,才是我创造的动力。
  • 关注作者公众号 『 AI技术星球 』,不定期分享原创知识。
  • 关注后回复【666】扫码即可获取学习资料包。
  • 同时可以期待后续文章ing🚀。
     

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值