空间转录组学习——数据探索

本文介绍了空间转录组学的数据格式和预处理步骤,包括genes.gtf文件的基因注释信息,SS200000135TL_D1.cellbin.gem文件中的基因表达位置和数量,以及质量控制指标如n_genes_by_counts、total_counts和pct_counts_mt。通过小提琴图展示数据分布,并分析离群值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本篇博客记录空间转录组数据的初步学习,使用数据为华大stereopy(https://stereopy.readthedocs.io/en/latest/index.html)中的Example数据,通过华大云盘下载。

数据概览

在华大云盘下载好数据,数据如下所示:在这里插入图片描述

1、genes.gtf

gtf: gene transfer format,主要用于对基因的注释,对染色体上的基因进行标注。
通常包括9列内容(用Tab键隔开):

属性解释
seqname序列名称,格式为染色体ID或者contig ID
source注释来源,通常是预测软件名或公共数据库
type注释信息的类型,如gene,transcript,exon,CDS,UTR,start_codon,stop_codon,Selenocysteine
start开始位点
end结束位点
score表示对该类型存在性及其坐标的可信度,非必须,可用.代替
strand链的正向与负向,用±号表示
frame密码子偏移,0、1、2
attributes必须有:gene_id value: 表示转录本在基因组上的基因座的唯一的ID。用空格分开,如果值为空,则表示没有对应的基因。预测的转录本的唯一ID。transcript_id value:transcript_id与value值用空格分开,空表示没有转录本。

genes.gtf文件中,数据如下所示。

#!genome-build GRCm38.p6
#!genome-version GRCm38
#!genome-date 2012-01
#!genome-build-accession NCBI:GCA_000001635.8
#!genebuild-last-updated 2018-03
1	ensembl_havana	gene	3205901	3671498	.	-	.	gene_id "ENSMUSG00000051951"; gene_version "5"; gene_name "Xkr4"; gene_source "ensembl_havana"; gene_biotype "protein_coding"
1	havana	transcript	3205901	3216344	.	-	.	gene_id "ENSMUSG00000051951"; gene_version "5"; transcript_id "ENSMUST00000162897"; transcript_version "1"; gene_name "Xkr4"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "Xkr4-203"; transcript_source "havana"; transcript_biotype "processed_transcript"; transcript_support_level "1"
1	havana	exon	3213609	3216344	.	-	.	gene_id "ENSMUSG00000051951"; gene_version "5"; transcript_id "ENSMUST00000162897"; transcript_version "1"; exon_number "1"; gene_name "Xkr4"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "Xkr4-203"; transcript_source "havana"; transcript_biotype "processed_transcript"; exon_id "ENSMUSE00000858910"; exon_version "1"; transcript_support_level "1"

2、SS200000135TL_D1.cellbin.gem

GEM文件包括GeneID、x、y、count
x, y表示基因在组织结构中的空间位置,count表示基因表达数量。
SS200000135TL_D1.cellbin.gem文件部分数据如下所示:

#FileFormat=GEMv0.1
#SortedBy=None
#BinSize=1
#STOmicsChip=SS200000135TL_D1
#OffsetX=0
#OffsetY=0
geneID	x		y		MIDCount	ExonCount	CellID
Gm42418	7566	19775	1			1			56203
Camk1d	7566	19777	1			0			56203
Gabra1	7567	19777	1			1			56203
Cmss1	7469	19720	1			0			56202
Purb	7469	19720	1			1			56202
Ptgds	7470	19720	1			1			56202

3、SS200000135TL_D1.tissue.gef

文件组织详见 https://www.processon.com/view/link/610cc49c7d9c087bbd1ab7ab#map

数据预处理

Quality control

n_genes_by_counts: the number of genes expressed in the count matrix
total_counts: the total counts per cell
pct_counts_mt: the percentage of counts in mitochondrial genes

小提琴图(qc distribution)

绘制连续型数据的方法,可以认为是箱形图和和密度图的结合体。
1、中位数:小提琴图上的一个白点
2、四分位数范围:小提琴中心的黑线条
3、较低、较高的相邻值:第一四分位数-1.5IQR、第三四分位数+1.5IQR,位于之外的值可视为离群值。
4、小提琴图中较宽的部分代表观测值取值的概率较高,较窄的部分则对应较低的概率。
参考自:https://zhuanlan.zhihu.com/p/376055263

在这里插入图片描述

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清上尘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值