RNA-seq——上游分析练习(数据下载+hisat2+samtools+htseq-count)

写在前面——之前使用的数据是单端测序,但是现在的数据基本都是双端测序。所以又找了个双端测序的例子来练习。之前在单端测序数据中,因为参考基因组注释文件找的不对,所以reads计数没有做好。这次数据质量不错,所以省略了质控和清洗,直接进入主题。由于租的服务器是2核+8G的,所以在生成sam文件和sort以及htseq-count都花费了大量的时间(四个样本集整整跑了将近一整天)。不过最后结果算是复现出来了,甚是欣慰。
摘要由CSDN通过智能技术生成

写在前面——之前使用的数据是单端测序,但是现在的数据基本都是双端测序。所以又找了个双端测序的例子来练习。之前在单端测序数据中,因为参考基因组注释文件找的不对,所以reads计数没有做好。这次数据质量不错,所以省略了质控和清洗,直接进入主题。由于租的服务器是2核+8G的,所以在生成sam文件和sort以及htseq-count都花费了大量的时间(四个样本集整整跑了将近一整天)。不过最后结果算是复现出来了,甚是欣慰。

文章名:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors

参考:https://www.jianshu.com/p/6d4cba26bb60

0. 练习前准备

a. 建好相关文件夹
在这里插入图片描述
b. 00ref:存放参考基因组和基因组注释文件(红色框框内为本文需要的文件)
在这里插入图片描述
c. 01raw_data:双端测序,所以一个样本有两个文件。
在这里插入图片描述
d. clean_data:存放处理过后的数据,本文数据质量不错,所以不用清洗即可使用
e. align_data:存放比对后的文件
f. matrix:存放reads计数文件

1. 找到文章对应的数据集

在这里插入图片描述
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE81916

2. 下载数据集

具体:快速下载SRA数据

for ((i=59;i<=62;i++)) ;do prefetch -v SRR35899$i; done
fastq-dump --gzip --split-3 SRR35899*.sra

# 在另一个Linux用户下载的,需要传到自己的目录下
scp SRR35899*.gz root@dzfly:/root/project/RNA/akap95/01raw_data/

检测公司给的数据是否完整:md5sum -c md5.txt

在这里插入图片描述

3. 与参考基因组进行比对

# 使用hisat2进行比对
# -t 显示时间
# -p 设置线程
for ((i=59;i<=62;i++)); do hisat2 -t -p 2 -x 00ref/mm10/genome -1 01raw
  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值