RNA-seq——上游分析练习（数据下载+hisat2+samtools+htseq-count）

最新推荐文章于 2024-06-11 21:18:22 发布

Dzfly..

最新推荐文章于 2024-06-11 21:18:22 发布

阅读量1.7k

点赞数 2

分类专栏：生信学习文章标签： RNA-seq hisat2 samtools htseq-count 上游分析

本文链接：https://blog.csdn.net/narutodzx/article/details/126491088

版权

写在前面——之前使用的数据是单端测序，但是现在的数据基本都是双端测序。所以又找了个双端测序的例子来练习。之前在单端测序数据中，因为参考基因组注释文件找的不对，所以reads计数没有做好。这次数据质量不错，所以省略了质控和清洗，直接进入主题。由于租的服务器是2核＋8G的，所以在生成sam文件和sort以及htseq-count都花费了大量的时间（四个样本集整整跑了将近一整天）。不过最后结果算是复现出来了，甚是欣慰。

摘要由CSDN通过智能技术生成

文章名：AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors

参考：https://www.jianshu.com/p/6d4cba26bb60

0. 练习前准备

a. 建好相关文件夹
在这里插入图片描述
b. 00ref：存放参考基因组和基因组注释文件（红色框框内为本文需要的文件）

c. 01raw_data：双端测序，所以一个样本有两个文件。

d. clean_data：存放处理过后的数据，本文数据质量不错，所以不用清洗即可使用
e. align_data：存放比对后的文件
f. matrix：存放reads计数文件

1. 找到文章对应的数据集

在这里插入图片描述
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE81916

2. 下载数据集

具体：快速下载SRA数据

for ((i=59;i<=62;i++)) ;do prefetch -v SRR35899$i; done
fastq-dump --gzip --split-3 SRR35899*.sra

# 在另一个Linux用户下载的，需要传到自己的目录下
scp SRR35899*.gz root@dzfly:/root/project/RNA/akap95/01raw_data/

检测公司给的数据是否完整：md5sum -c md5.txt

在这里插入图片描述

3. 与参考基因组进行比对

# 使用hisat2进行比对
# -t 显示时间
# -p 设置线程
for ((i=59;i<=62;i++)); do hisat2 -t -p 2 -x 00ref/mm10/genome -1 01raw

最低0.47元/天解锁文章

Dzfly..

关注

2
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
RNA-seq——上游分析练习（数据下载+hisat2+samtools+htseq-count）

写在前面——之前使用的数据是单端测序，但是现在的数据基本都是双端测序。所以又找了个双端测序的例子来练习。之前在单端测序数据中，因为参考基因组注释文件找的不对，所以reads计数没有做好。这次数据质量不错，所以省略了质控和清洗，直接进入主题。由于租的服务器是2核＋8G的，所以在生成sam文件和sort以及htseq-count都花费了大量的时间（四个样本集整整跑了将近一整天）。不过最后结果算是复现出来了，甚是欣慰。
复制链接

扫一扫

专栏目录