NCBI已经不再维护并下架了ePCR软件,转而推荐使用其Primer-BLAST网页工具。这对于单个引物设计任务比较方便,但不利于基因组较大的非模式物种的特异性引物设计或批量化的引物设计。
本教程讲解使用NCBI-ePCR和Primer3进行引物批量化设计。
1.下载并安装NCBI-ePCR和Primer3软件
$ wget http://ftp.debian.org/debian/pool/main/e/epcr/epcr_2.3.12-1.orig.tar.gz -P ~/software
$ tar zxf ~/software/epcr_2.3.12-1.orig.tar.gz -C /opt/biosoft/
$ make -j 4
$ echo 'PATH=$PATH:/opt/biosoft/e-PCR-2.3.12/' >> ~/.bashrc
$ source ~/.bashrc
$ wget https://sourceforge.net/projects/primer3/files/primer3/2.4.0/primer3-2.4.0.tar.gz -P ~/software/
$ tar zxf ~/software/primer3-2.4.0.tar.gz -C /opt/biosoft/
$ cd /opt/biosoft/primer3-2.4.0/src/
$ make all
$ echo 'PATH=$PATH:/opt/biosoft/primer3-2.4.0/src/' >> ~/.bashrc
$ source ~/.bashrc
2. 使用ePCR进行引物验证
首先,使用famap命令和fahash命令分两步将基因组序列转换为哈希数据库。
$ famap -t N -b genome.famap genome.fasta
程序将FASTA格式的序列转换为famap数据库文件。
常用参数:-t
设置碱基类型。可以设置4种值:n,允许含有小写碱基atcgn,其它字符转换为n或N;nx,允许含有小写碱基和兼并碱基字符,其它字符转换为n或N;N,仅允许大写碱基,atcgn自动转换为大写,其它字符转换为N;NX,允许大写碱基和兼并碱基字符,其它字符转换为N。 -b
设置输出的famap数据库文件路径。
$ fahash -b genome.hash -w 12 -f 3 genome.famap
程序进一步将famap文件转换为hash数据库文件。
常用参数:-b
输出hash数据库文件。
-w
设置wordsize长度。
-f
设置wordcnt长度。
然后,使用re-PCR将引物和数据库进行比对,寻找引物比对结果。
分别对多个引物进行比对,得到各个引物的匹配结果:
$ re-PCR -p genome.hash -n 1 -g 1 ACTATTGATGATGA AGGTAGATGTTTTT …
输入一对引物,并设置产物长度期望值,得到一对引物的匹配结果:
$ re-PCR -s genome.hash -n 1 -g 1 ACTATTGATGATGA AGGTAGATGTTTTT 50-1000
常用参数:
-p
输入hash数据库,在命令行中直接输入引物序列,将引物和数据库进行比对。
-s
输入hash数据库,在命令行中必须输入一对引物和产物长度期望范围,得到一对引物的匹配结果。
-n
设置允许的错配碱基数。
-g
设置允许的gap数。
3. Primer3软件的使用
Primer3是命令行形式的引物设计软件,能很好地用于引物的批量设计。 其主程序是primer3_core。 该命令的输入是Boulder-IO格式,适合于软件读入数据;输出文件默认下是适合人类阅读的格式,也可以是Boulder-IO格式,有助于下一步引物结果的批量操作。 Boulder-IO格式以文本形式记录着引物设计信息,且每个引物信息的结尾使用“等于换行符”分隔。每个记录由多个标签和对应的值构成,用于指定输入信息或输出结果。例如:
SEQUENCE_ID=example
SEQUENCE_TEMPLATE=GTAGTCAGTAGACNATGACNACTGACGATGCA