前两天帮人下载了28.2Gb
的蝾螈基因组GCA_002915635.3
,这么大的基因组,还是第一次近距离接触。
由于之前我优化了下Misa+Primer3
流程脚本,使之可以耗费较小的服务器资源用于分析核心基因组SSR并设计引物。目前为止,我接过的付费分析中还没有超过3Gb
的基因组,因此,萌生了对蝾螈基因组分析SSR并设计引物的想法。
就现在网上公开的脚本和修改方法,并不能直接完美将Misa+Primer3
流程应用于核心基因组的分析。如果你有需要分析的,可以直接联系我做付费分析。
流程bash脚本
- 脚本名称
run_ssr.sh
- 输入文件为fasta序列,非压缩文件
- 先对fasta序列进行备份儿,加前缀
bak_
- fasta序列ID部分空格后的内容需要先删掉。
$ cat run_ssr.sh
#!/usr/bin/env bash
usage() {
cat << EOF
Function: Misa + Primer3
Usage: bash `basename $0` <fasta file>
e.g. bash `basename $0` test.fasta
EOF
exit 1
}
[[ $# == 1 ]] || usage
FASTA=$1
[[ -f bak_${FASTA} ]] || cp ${FASTA} bak_${FASTA}
sed -i 's/ .*//g' $FASTA
echo "----misa.pl `date`----"
perl misa.pl