可变剪切的可视化软件ggsashimi用R和python来实现, python准备好数据, 利用R画图。简单好用,但也折腾了半天,现在把完成本次可视化的步骤详细的记录一下,必备以后用。
1. 准备可视化的基因注释文件,基因的注释文件是gtf格式,每个文件包含了这个基因的不同类型的可变剪切,可以从整个基因组注释文件中提取出来,但需要注意的是有时候注释文件中的染色体用,1,2,3等数字代替,而bam文件中的染色体是用 Chr1,Chr2等表示,切记要一致。代码如下:
#比如我要注释的基因是AT1G73660, 用转录本的正则来搜索
grep -P "AT1G73660\.\d+" Arabidopsis_thaliana.TAIR10.46.gtf > AT1G73660.gtf
awk -F"\t" 'BEGIN{OFS="\t"} $1="Chr"$1' AT1G73660_1.gtf > AT1G73660_new.gtf #转录本的染色体的编号要和基因组的一致,基因组是Chr1, 转录本也用Chr1,新找的到转录本每行前面加Chr
2. 准备bam文件,可将进行可视化的样品的BAM文件放到一个文件夹中,然后将每个bam的信息写到一个tsv(文本文件中),第一列是bam文件等编号,第二列是存放这些文件的地址,可以是相对路径也可以是绝对路径,第三列是每个bam文件等属性,比如是对照组还是处理组,那一种处理等信息。这一列主要用来对样品进行分类并且用不同的颜色表示。有几类就在下边的做图参数 -C COLOR_FACTOR 写几。下边是我整理的tsv文件的一个举例