高通量测序获取的原始数据是一条条reads,再经过检测和拼接形成完整的基因组序列。这千千万万条序列就相当于我们数据分析实验的材料,如果测序质量比较差,那么得出的结果……,嗯,你懂的。
今天小编分享给大家一个常用的测序数据质控工具FastQC,它可以评估这些序列的质量并给我们出具一份报告,便于我们对测序结果有一个整体的把控,为后续的数据处理提供依据。
接下来我们就一起探索一下如何使用这个软件查看自己测序数据的质量吧~
01 FastQC简介
FastQC是一款基于Java语言设计的软件,目前可以直接下载免费使用,一般在Linux环境下使用命令行执行程序,它可以快速地多线程地对测序数据进行质量控制(Quality Control),还能进行质量可视化来查看质控效果。运行一段时间以后,会出现报告。使用浏览器打开后缀是html的文件,这就是图表化的fastqc报告。
FastQC官网:Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data
FastQC的下载地址:
Babraham Bioinformatics - Public Projects Download,根据链接下载并按照指示安装。软件信息和使用信息可以查看“README”,安装信息查看“Installation and setup instructions”。
FastQC支持的格式
(1) FastQ (all quality encoding variants)
(2) Casava FastQ files*
(3) Colorspace FastQ
(4) GZip compressed FastQ
(5) SAM
(6) BAM
(7) SAM/BAM Mapped only (normally used for colorspace data)
02 安装与使用
(1)Windows系统
① 首先下载对应的软件包。
② 下载后解压缩,查看文件夹的内容。
③ 双击“run_fastqc.bat”运行程序,页面如下图所示。
④ 点击“Help”>“Contents…”,可以查看FastQC的软件简介、基本操作、分析结果等详细信息。
⑤ 点击“File”>“Open…”>选择要分析的序列文件。
⑥ 通过点击文件夹和文件,选择需要进行分析的数据,点击打开。
⑦ 现在进入了FastQC的分析界面,稍等片刻就可以查看分析结果。
⑧ 保存报告,点击“File”>“Save report…”>选择要存放的位置。
⑨ 查看保存的文件。
(2)Linux系统
FastQC是在Java环境下运行的,所以在安装fastqc之前,Linux下要有相应的Java运行环境(JRE),目前大多数发行版都已经安装了java,所以你可能不需要自己进行安装啦!我们暂时就不介绍如何安装了哦~但是保险起见,我们还是确定一下自己的Linux系统是否安装了java环境。
#查看是否具有Java
两个命令二选一命令:
which java java -version
如果显示“not found”,可以根据提示的命令输入后运行进行下载。
Ubuntu系统可以通过执行以下命令安装java。
sudo apt install default-jre
完成java环境配置后,就可以开始学习Linux下FastQC安装与使用了。
基于conda安装
在Linux系统下可以直接使用conda安装:Fastqc :: Anaconda.org
#安装代码
conda install -c bioconda fastqc
#查看fastqc是否安装完成
fastqc --version
#查看fastqc的参数
fastqc --help
主要参数解读:
-o 或 --outdir #FastQC生成的报告文件的储存路径,生成的报告的文件名是根据输入来定的
--extract #生成的报告默认会打包成1个压缩文件,使用这个参数是让程序不打包
-t 或 --threads #选择程序运行的线程数
-q 或 --quiet #安静运行模式,一般不选这个选项的时候,程序会实时报告运行的状况
#使用fastqc进行质量检测,在当前文件夹生成一个.html网页文件和一个.zip文件。
fastqc 样本名称
#批量处理样本,在指定文件夹result生成.html网页文件和.zip文件。
fastqc 样本1 样本2 … -o 文件夹
下载安装包 在网站上选择对应的下载入口:
Babraham Bioinformatics - Public Projects Download, 点击进行下载,获得了一个压缩包fastqc_v0.11.9.zip。
首先进行解压缩,运行命令unzip fastqc_v0.11.9.zip。
解压缩后生成了一个名为FastQC的文件夹,cd FastQC进入文件夹,ls -l可以看到里面有一个fastqc执行文件。
如何运行分析呢?
./fastqc+文件名称,就可以运行fastqc程序啦!
注意:输出文件默认储存在分析文件所在文件夹中(data)。
这篇推文对你有帮助吗?喜欢这篇文章吗?喜欢就不要错过呀,关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号,小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习,也希望读者们发现错误后予以指出,小编愿与诸君共同进步!!!
学习环境微生物分析,关注“环微分析”公众号,持续更新,开源免费,敬请关注!
转载自原创文章:
最后,再次感谢你阅读本篇文章,真心希望对你有所帮助。感谢!