随着二代测序技术的高速发展,人们获得了大量的转录组数据序列如何从数据中挖掘具有生物意义的信息已经成为很多研究的关键,对未知基因的功能进行预测和注释就是一个重要问题
这篇文章主要是跟着 刘粉香,杨文国,孙勤红,三位老师的文献对测序数据进行分析以及GO注释,旨在学习测序数据分析的方法以及GO注释的方法
数据来源于NCBI上的SRA数据库 SRR063784
1.原始测序数据下载与质控
#下载数据
~/.aspera/connect/bin/ascp -T -i /home/qiujunhui/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR063/SRR063784/SRR063784.sra ./
#解压
fastq-dump SRR063784.sra
#质控
mkdir fastqc_out
fastqc -o fastqc_out/ --noextract SRR063784.fastq
#用Trimmomatic切除reads的phred值小于20的
java -jar ~/Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 SRR063784.fastq SRR063784_clean.fastq LEADING:20 TRAILING:20
TrimmomaticSE: Started with arguments:
-phred33 SRR063784.fastq SRR063784_clean.fastq LEADING:20 TRAILING:20