写在前面——之前使用的数据是单端测序,但是现在的数据基本都是双端测序。所以又找了个双端测序的例子来练习。之前在单端测序数据中,因为参考基因组注释文件找的不对,所以reads计数没有做好。这次数据质量不错,所以省略了质控和清洗,直接进入主题。由于租的服务器是2核+8G的,所以在生成sam文件和sort以及htseq-count都花费了大量的时间(四个样本集整整跑了将近一整天)。不过最后结果算是复现出来了,甚是欣慰。
文章名:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors
参考:https://www.jianshu.com/p/6d4cba26bb60
0. 练习前准备
a. 建好相关文件夹
b. 00ref:存放参考基因组和基因组注释文件(红色框框内为本文需要的文件)
c. 01raw_data:双端测序,所以一个样本有两个文件。
d. clean_data:存放处理过后的数据,本文数据质量不错,所以不用清洗即可使用
e. align_data:存放比对后的文件
f. matrix:存放reads计数文件
1. 找到文章对应的数据集
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE81916
2. 下载数据集
具体:快速下载SRA数据
for ((i=59;i<=62;i++)) ;do prefetch -v SRR35899$i; done
fastq-dump --gzip --split-3 SRR35899*.sra
# 在另一个Linux用户下载的,需要传到自己的目录下
scp SRR35899*.gz root@dzfly:/root/project/RNA/akap95/01raw_data/
检测公司给的数据是否完整:md5sum -c md5.txt
3. 与参考基因组进行比对
# 使用hisat2进行比对
# -t 显示时间
# -p 设置线程
for ((i=59;i<=62;i++)); do hisat2 -t -p 2 -x 00ref/mm10/genome -1 01raw