单细胞数据库构建
优质已整合的单细胞数据库
如果读者只想获得一个现成的内容丰富的单细胞数据库加入至自己的PC或linux服务器,可以跳过下面的详细理论教程
数据库下载链接: 点击下载单细胞数据库。
包含约800个细胞数据的中小型数据库,维度约为20000x800,部分为作者公司数据,部分为国际数据库数据,包含T-cell, B-cell,NK-cell,Astrocyte-cell等共约40种细胞类型,已经过sizefactor和批次效应处理,可随时应用到单数据分析工作,并附带API脚本,可执行查询任务。
背景知识
随着单细胞测序平台dropseq,10x等普及,越来越多的单细胞数据被NCBI等国际数据库收录。单细胞数据格式与转录组数据类似,同样是表达矩阵,rownames都是gene,colnames的话单细胞是细胞barcode,转录组是样本名称。目前市面10x平台测序公司稳定能测到10000-20000个细胞,所以总矩阵维度单细胞要高很多。目前市面上有多种形式来存储单细胞数据,包括csv,seurat h5ad,h5文件等,所以自己建立单细胞数据库就需要整合多种形式的数据,下面就来具体说说大体的处理思路。
需求分析
那么构建一个自己的单细胞数据库的意义在哪里?
- 新数据和旧数据进行差异分析:
- 聚类分析:
- pathway分析:
数据库类型
- 传统的关系型数据库,mysql,postgresql,python或R dataframe等
- 非关系型数据库,MongoDB,HBase等
数据库构建过程
- 原始数据获得
- 数据size factor和批次效应处理
- 矩阵合并
- 关联单细胞metadata
数据库下载链接: 点击下载单细胞数据库。
单细胞数据库构建教程未完待续,下一篇将详细解释上面的提纲内容,敬请期待!