DBSCAN算法进行细胞类型聚类

该博客介绍了如何对小鼠乳腺组织的单细胞转录组数据进行预处理,选取高方差特征,并使用PCA降维至50维。接着通过可视化展示PCA后前两位特征的相关性,并利用DBSCAN进行聚类,调整参数以找到最佳的聚类效果。最终,通过标准化互信息评估聚类质量。博客提供了代码和数据,探讨了参数选择对聚类的影响。
摘要由CSDN通过智能技术生成

著名的小鼠转录数据库。原理和实现参考:
单细胞转录组数据分析|| scanpy教程:预处理与聚类
有关dbscan的算法演示有个网站可视化地对参数距离和中心点个数演示:
Visualizing DBSCAN Clustering

文件夹中共包含5个以逗号分隔的文本文件,每个文本文件包含小鼠乳腺组织中一种特定类型的细胞的基因表达水平,以矩阵形式存储。简单来讲每行是一个特征,每列是一个样本,每个值表示表达情况,0.0表示没有表达,数据无负值。其中五份数据文件的样本表示一类。
具体要求:
简单就两个:

  1. 对2万个特征求方差,选出2000个特征,然后用pca得到前50维特征。然后对前两位最大特征的画图。效果如图,可见还是有很大关联的,个别因为维度太低已经分散了。
    1
  2. 然后从pca后的50个维度特征进行聚类,求出标准化互信息(Normalized Mutual Information, NMI)。改变参数求出最好的划分,邻近距离是欧式距离,距离在10-15间效果最好,过大会把不同类聚到一起,过小会让本属于同一类的变成孤立点,因此孤立点就会更多,至于最小中心点请自行分析:
    2
    效果一般,能力有限都借助sklearn的库写的。
    源码及五个文件如下链接。

由于我已经生成了五个文件合成的scrna.csv。所以注释掉了生成代码。第一次运行请去掉注释。
由于数据集较大不上传了。
代码见:github

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值