今天分享一篇学习笔记,主要包含blast序列比对和数据提取方法。
首先,需要准备RNA数据和蛋白质数据,本次利用蛋白质数据建立索引库,然后将RNA比对到蛋白质序列。
RNA数据
创建一个目录,导入mRNA序列数据,通常是一个fasta后缀文件。
- 在工作目录下创建alignment文件夹
- 将mRNA序列数据文件wheat-test.fasta拷贝到/alignment中
蛋白质数据
新建一个文件夹存放蛋白质序列数据和索引文件(蛋白质序列后缀是fa)
- 在alignment文件夹内创建database文件夹
- 将Arabidopsis_protein.fa.gz拷贝到alignment/database中,并解压获得蛋白质序列文件Arabidopsis_protein.fa
建立索引
建立索引需要输入文件为蛋白质序列数据,类型可以选蛋白或者核酸,输出索引需要制定一个名称,最终生成比对索引数据库。
运行makeblastdb
软件,对Arabidopsis_protein.fa建立索引文件,以下是该软件的提示信息。
$ makeblastdb -help
USAGE
makeblastdb [-h] [-help] [-in input_file] [-input_type type]
-dbt