umap 速度测试

我的心永远是笑笑哒

已于 2023-02-27 23:15:26 修改

阅读量531

点赞数

分类专栏： python 文章标签： python numpy

于 2023-02-16 13:42:50 首次发布

本文链接：https://blog.csdn.net/qq_45759229/article/details/129059615

版权

python 专栏收录该内容

101 篇文章

订阅专栏

该文对UMAP的运行速度进行了测试，使用不同数量的样本（从10,000到800,000）进行聚类和可视化。随着样本量增加，计算时间和内存需求显著上升，导致在达到800,000样本时因内存限制无法完成。作者提出，对于大型数据集，可以采用抽样方法来减少计算资源的消耗。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天终于把umap的速度给测了一下，结果如下

预处理文件（83万的数据量）

# import scanpy as sc 
# adata=sc.read("/DATA1/zhangjingxiao/yxk/dataset/FullMouseBrain/FullMouseBrain_raw.h5ad")
# print(adata)
# sc.pp.normalize_total(adata,target_sum=10000)
# sc.pp.log1p(adata)
# sc.pp.highly_variable_genes(adata, n_top_genes=2000, subset = True)
# sc.pp.scale(adata)
# sc.tl.pca(adata,svd_solver='arpack')

# #write to PCA h5ad 
# adata.write("/DATA1/zhangjingxiao/yxk/dataset/FullMouseBrain/FullMouseBrain_pca.h5ad")

sample=10000

import scanpy as sc 
#import hnswlib
import scanpy as sc
import pandas as pd
from time import time 
# 怎么关闭warning
import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='2'
############################
n_sample=10000
############################

adata=sc.read("/DATA1/zhangjingxiao/yxk/dataset/FullMouseBrain/FullMouseBrain_pca.h5ad")
adata=sc.pp.subsample(adata,n_obs=n_sample,copy=True)
print(adata.obsm["X_pca"].shape)
t0=time()
sc.pp.neighbors(adata)
sc.tl.umap(adata)
t1=time()
print("*"*50)
print("*"*50)
print("umap sample={}，fit cost {}s".format(n_sample,t1-t0))
print("*"*50)
print("*"*50)
sc.pl.umap(adata,color = ["BATCH", "celltype"])

在这里插入图片描述

sample=20000

import scanpy as sc 
#import hnswlib
import scanpy as sc
import pandas as pd
from time import time 
# 怎么关闭warning
import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='2'
############################
n_sample=20000
############################

adata=sc.read("/DATA1/zhangjingxiao/yxk/dataset/FullMouseBrain/FullMouseBrain_pca.h5ad")
adata=sc.pp.subsample(adata,n_obs=n_sample,copy=True)
print(adata.obsm["X_pca"].shape)
t0=time()
sc.pp.neighbors(adata)
sc.tl.umap(adata)
t1=time()
print("*"*50)
print("*"*50)
print("umap sample={}，fit cost {}s".format(n_sample,t1-t0))
print("*"*50)
print("*"*50)
sc.pl.umap(adata,color = ["BATCH", "celltype"])

在这里插入图片描述

sample=50000

import scanpy as sc 
#import hnswlib
import scanpy as sc
import pandas as pd
from time import time 
# 怎么关闭warning
import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='2'
############################
n_sample=50000
############################

adata=sc.read("/DATA1/zhangjingxiao/yxk/dataset/FullMouseBrain/FullMouseBrain_pca.h5ad")
adata=sc.pp.subsample(adata,n_obs=n_sample,copy=True)
print(adata.obsm["X_pca"].shape)
t0=time()
sc.pp.neighbors(adata)
sc.tl.umap(adata)
t1=time()
print("*"*50)
print("*"*50)
print("umap sample={}，fit cost {}s".format(n_sample,t1-t0))
print("*"*50)
print("*"*50)
sc.pl.umap(adata,color = ["BATCH", "celltype"])

在这里插入图片描述

sample=100000

import scanpy as sc 
#import hnswlib
import scanpy as sc
import pandas as pd
from time import time 
# 怎么关闭warning
import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='2'
############################
n_sample=100000
############################

adata=sc.read("/DATA1/zhangjingxiao/yxk/dataset/FullMouseBrain/FullMouseBrain_pca.h5ad")
adata=sc.pp.subsample(adata,n_obs=n_sample,copy=True)
print(adata.obsm["X_pca"].shape)
t0=time()
sc.pp.neighbors(adata)
sc.tl.umap(adata)
t1=time()
print("*"*50)
print("*"*50)
print("umap sample={}，fit cost {}s".format(n_sample,t1-t0))
print("*"*50)
print("*"*50)
sc.pl.umap(adata,color = ["BATCH", "celltype"])

在这里插入图片描述

sample=200000

import scanpy as sc 
#import hnswlib
import scanpy as sc
import pandas as pd
from time import time 
# 怎么关闭warning
import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='2'
############################
n_sample=200000
############################

adata=sc.read("/DATA1/zhangjingxiao/yxk/dataset/FullMouseBrain/FullMouseBrain_pca.h5ad")
adata=sc.pp.subsample(adata,n_obs=n_sample,copy=True)
print(adata.obsm["X_pca"].shape)
t0=time()
sc.pp.neighbors(adata)
sc.tl.umap(adata)
t1=time()
print("*"*50)
print("*"*50)
print("umap sample={}，fit cost {}s".format(n_sample,t1-t0))
print("*"*50)
print("*"*50)
sc.pl.umap(adata,color = ["BATCH", "celltype"])

在这里插入图片描述

sample=400000

import scanpy as sc 
#import hnswlib
import scanpy as sc
import pandas as pd
from time import time 
# 怎么关闭warning
import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='2'
############################
n_sample=400000
############################

adata=sc.read("/DATA1/zhangjingxiao/yxk/dataset/FullMouseBrain/FullMouseBrain_pca.h5ad")
adata=sc.pp.subsample(adata,n_obs=n_sample,copy=True)
print(adata.obsm["X_pca"].shape)
t0=time()
sc.pp.neighbors(adata)
sc.tl.umap(adata)
t1=time()
print("*"*50)
print("*"*50)
print("umap sample={}，fit cost {}s".format(n_sample,t1-t0))
print("*"*50)
print("*"*50)
sc.pl.umap(adata,color = ["BATCH", "celltype"])

在这里插入图片描述

sample=600000

import scanpy as sc 
#import hnswlib
import scanpy as sc
import pandas as pd
from time import time 
# 怎么关闭warning
import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='2'
############################
n_sample=600000
############################

adata=sc.read("/DATA1/zhangjingxiao/yxk/dataset/FullMouseBrain/FullMouseBrain_pca.h5ad")
adata=sc.pp.subsample(adata,n_obs=n_sample,copy=True)
print(adata.obsm["X_pca"].shape)
t0=time()
sc.pp.neighbors(adata)
sc.tl.umap(adata)
t1=time()
print("*"*50)
print("*"*50)
print("umap sample={}，fit cost {}s".format(n_sample,t1-t0))
print("*"*50)
print("*"*50)
sc.pl.umap(adata,color = ["BATCH", "celltype"])

在这里插入图片描述