DBSCAN算法进行细胞类型聚类

最新推荐文章于 2024-05-02 18:41:52 发布

长门yuki

最新推荐文章于 2024-05-02 18:41:52 发布

阅读量808

点赞数 2

分类专栏：本科文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43305312/article/details/117382948

版权

本科专栏收录该内容

15 篇文章 5 订阅

订阅专栏

该博客介绍了如何对小鼠乳腺组织的单细胞转录组数据进行预处理，选取高方差特征，并使用PCA降维至50维。接着通过可视化展示PCA后前两位特征的相关性，并利用DBSCAN进行聚类，调整参数以找到最佳的聚类效果。最终，通过标准化互信息评估聚类质量。博客提供了代码和数据，探讨了参数选择对聚类的影响。

摘要由CSDN通过智能技术生成

著名的小鼠转录数据库。原理和实现参考：
单细胞转录组数据分析|| scanpy教程：预处理与聚类
有关dbscan的算法演示有个网站可视化地对参数距离和中心点个数演示：
Visualizing DBSCAN Clustering

文件夹中共包含5个以逗号分隔的文本文件，每个文本文件包含小鼠乳腺组织中一种特定类型的细胞的基因表达水平，以矩阵形式存储。简单来讲每行是一个特征，每列是一个样本，每个值表示表达情况，0.0表示没有表达，数据无负值。其中五份数据文件的样本表示一类。
具体要求：
简单就两个：

对2万个特征求方差，选出2000个特征，然后用pca得到前50维特征。然后对前两位最大特征的画图。效果如图，可见还是有很大关联的，个别因为维度太低已经分散了。
然后从pca后的50个维度特征进行聚类，求出标准化互信息（Normalized Mutual Information, NMI）。改变参数求出最好的划分，邻近距离是欧式距离，距离在10-15间效果最好，过大会把不同类聚到一起，过小会让本属于同一类的变成孤立点，因此孤立点就会更多，至于最小中心点请自行分析：

效果一般，能力有限都借助sklearn的库写的。
源码及五个文件如下链接。

由于我已经生成了五个文件合成的scrna.csv。所以注释掉了生成代码。第一次运行请去掉注释。
由于数据集较大不上传了。
代码见：github

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。