linux质控命令,RNA-seq摸索:2.sra下载数据→fastqc质控→hisat2/bowtie2/STAR/salmon比对→Samtools格式转换→IGV可视化结果...

这篇博客介绍了如何在Linux环境下处理RNA-seq数据,从SRA数据库下载数据,通过fastqc进行质量控制,使用hisat2、bowtie2、STAR和salmon进行比对,再到Samtools转换和排序,最后通过IGV进行可视化。过程中作者分享了遇到的问题和解决方法,包括双端测序数据的处理、fastq-dump的正确使用、比对软件的选择及内存管理等。
摘要由CSDN通过智能技术生成

我觉得这个作者这样的分类特别清晰,值得学

new_workflow/

│ └── annotation/

│ └── genome/

│ └── input/

│ └── output/

│ ├── 1_initial_qc/

│ ├── 2_trimmed_output/

│ ├── 3_rRNA/

│ ├── aligned/

│ ├── filtered/

│ ├── logs/

│ ├── 4_aligned_sequences/

│ ├── aligned_bam/

│ ├── aligned_logs/

│ ├── 5_final_counts/

│ ├── 6_multiQC/

│ └── sortmerna_db/

│ ├── index/

│ ├── rRNA_databases/

│ └── star_index/

💥前半部分是我的血泪史!正文在中间开始!💥

这里都是坑,别学!!!!正确的在下一条分界线那里↓

1.1 在SRA数据库下载数据

844490b69272

其实序列就是文本文件(图片来源于网络)

1.2 转为fastq格式

fastq-dump *.sra

844490b69272

生成一个fastq文件

到这里才完全发现问题!!!!!😭😭😭

我的数据其实是有问题的!!!

我以为是单端测序(SE),但是在NCBI上查询了一下原来是双端测序(PE)!!!

844490b69272

我选的是SRR3589959

所以就是重头来过!!!!🙃

▶所以这里才是正文的开始!!

1 原始数据下载

1.1 在SRA数据库下载数据

SRR_Acc_List.txt里面是要下载的SRR号

注意!!!!光标一定不能在有SRR号的那行,不然会跳过那行!!

cat SRR_Acc_List.txt | while read id; do (prefetch ${id} );done

844490b69272

下载好了

1.2 sra转成fastq (这里要注意不是这么写!!!!

因为是双端测序数据!!!

fastq-dump *.sra 绝对不能这么写!!!!

应该加这个参数 --split-files

fastq-dump --split-files *.sra

💥💥💥这里我会把.sra后缀的文件都移到一个新文件夹sra里,然后cd到sra文件夹里转fastq↓

cp ./SRR*/.sra ./sra

fastq-dump --split-files *.sra

如果需要压缩,可以加--gzip,就会生成.fastq.gz文件,解压缩用gunzip

844490b69272

--split-files的意义

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值