生物信息学仿真软件SInC的初步使用教程

1. 下载

软件下载:https://sourceforge.net/projects/sincsimulator/
paper: SInC: an accurate and fast error-model based simulator for SNPs, Indels and CNVs coupled with a read generator for short-read sequence data

2. 使用

SInC有三个部分,分别对应三个可执行文件
在这里插入图片描述

2.1 genProfile 模拟测序质量分数

生成质量分数配置文件,这个是为了第三步生成read而准备的,如果是双末端测序,需要准备两个fastq文件(可以从一些生物信息学数据库汇总下载),该程序会从fastq文件中模拟其测序质量分数的分布,并生成相应read长的质量分数配置文件,提供第三步调用。

./genProfile -R 1 -l 100 input1.txt
./genProfile -R 2 -l 100 input2.txt
# -R 1 表示从正向测序
# -R 2 表示从反向测序

例如,对于双端测序的read,共有两个配对的fastq文件,input.txt内容如下

# input1.txt 文件格式(一个也可以,正向测序的fq)
test1_1.fq
test2_1.fq

# input2.txt 文件格式(一个也可以,反向测序的fq)
test1_2.fq
test2_2.fq

2.2 SInC_simulate 模拟SNV,INDEL,CNV变异

这里仿真变异的三种类型是互相独立的,当其中一个的概率设置为0的时候,不会进行变异。

./SInC_simulate -S 0.002 -I 0.0001 -p 2 -l 1000 -u 150000 -t 2 chr21.fa
# -S 表示SNP发生变异的频率
# -I 表示Indel发生变异的频率
# -p 表示CNV发生变异的频率
# -l CNV变异的最短序列长度
# -u CNV变异的最长序列长度
# -t SNP变异中,转换:颠换的比例
# 最后是参考基因组fa文件

2.3 SInC_readGen 生成读段

把第二步模拟的fa文件,通过测序仪仿真生成fastq文件(默认是双端测序),这里还需要用到第一步生成的质量分数配置文件

./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_1.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt
./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_2.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt
# -C 表示测序深度
# -T 表示cpu核心数
# -R 表示每条read的长度
# chr22_allele_1.fa 第二步模拟的fa文件
# 100_bp_read1_profile.txt 第一步模拟的正向测序的质量分数配置文件
# 100_bp_read2_profile.txt 第一步模拟的反向测序的质量分数配置文件

2.5 官方readme

SInC has 3 steps:

Step 1: Quality profile generation // 质量配置文件生成
Run  "./genProfile" to generate quality profile from your desired input file. //从你的期望的输入文件中生成quality profile

Usage:
 ./genProfile -R <read tag(1 for R1, 2 for R2)> -l <read length> <input.txt>

Example:
./genProfile -R 1 -l 100 input.txt // 输入文本为fastq文件列表

-> -R 1   means profile for R1.(Similarly run with -R 2 for R2)
-> -l 100   means read length 100
-> input.txt this file contains list of fastq files(1 file per line) to be used for profile generation. 

Step 2: Simulation of SNPs, INDELs, CNVs // 模拟SNPs, INDELs, CNVs等变异
Run "./SInC_simulate" to simulate SNPs, INDELs, CNVs.

Usage:
 ./SInC_simulate [options] <in.ref.fa>

Example:
./SInC_simulate -S 0.002 -I 0.0001 -p 2 -l 1000 -u 150000 -t 2 chr21.fa

-> -S 0.002  means 0.002% of SNPs to be incorporated(合并) in the reference // 1000个碱基包含两个snp
-> -I 0.0001 means 0.0001% of INDELs to be incorporated in the reference
-> -p 2   means 2% of CNVs to be incorporated in the reference
-> -l 1000  means minimum size of CNV should be 1000
-> -u 150000 means maximum size of CNV should be 150000
-> -t 2   means ti/tv should be 2 // 

NOTE:
1. SInC will generate fasta file for both the alleles, so run read generator on both the files separately.
//1. SInC 将为两个等位基因生成 fasta 文件,因此分别对这两个文件运行读取生成器。
2. Minimum evolutionary SNP rate is set to 0.0033.
//2.最小进化 SNP 率设置为 0.0033。

Step 3: Read generation
Run "./SInC_readGen" for both the fasta files generated in Step 2.
Usage:
 ./SInC_readGen [options] <in.ref.fa> <read_1_profile.txt> <read_2_prof.txt>

Example: desired coverage 10
./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_1.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt
./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_2.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt

-> -C 5  means fold coverage for chr22_allele_1.fa is 5
-> -T 1  means use 1 core
-> -R 100 means read length 100

3. 报错

该软件运行在linux环境下,需要gsl
如果运行过程中报如下错误,参考我的另一篇文章:关于部分软件运行报错,找不到libgsl.so.0的解决方案

error while loading shared libraries: libgsl.so.0: cannot open shared object file: No such file or directory
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值