SInC的下载及使用

最近做毕设要用到SInC这个工具,往基因序列里插入拷贝数变异,然鹅,我对它一窍不通,网上资料也比较少,特此写篇博文来记录一下自己的心路历程

下载

SInC是在下面这篇论文中提出的,作者在文章里给了下载链接,文章地址附上:
SInC: an accurate and fast error-model based simulator for SNPs, Indels and CNVs coupled with a read generator for short-read sequence data
 

使用

因为本来也不是学 生信 的,原理啥的我也不懂,所以就直接说怎么用吧

这是官方给的使用说明:

SInC has 3 steps:

 
Step 1: Quality profile generation
Run “./genProfile” to generate
quality profile from your desired input file.
 
Usage: ./genProfile -R <read tag(1 for R1, 2 for R2)> -l <input.txt>
 
Example: ./genProfile -R 1 -l 100 input.txt

-> -R 1 means profile for R1.(Similarly run with -R 2 for R2)
-> -l 100 means read length 100
-> input.txt this file contains list of fastq files(1 file per line) to be used for profile generation.

 
Step 2: Simulation of SNPs, INDELs, CNVs
Run “./SInC_simulate” to
simulate SNPs, INDELs, CNVs.
 
Usage: ./SInC_simulate [options] <in.ref.fa>
 
Example: ./SInC_simulate -S 0.002 -I 0.0001 -p 2 -l 1000 -u 150000 -t
2
 
-> -S 0.002 means 0.002% of SNPs to be incorporated in the reference
-> -I 0.0001 means 0.0001% of INDELs to be incorporated in the reference
-> -p 2 means 2% of CNVs to be incorporated in the reference
-> -l 1000 means minimum size of CNV should be 1000
-> -u 150000 means maximum size of CNV should be 150000
-> -t 2 means ti/tv should be 2

NOTE:

  1. SInC will generate fasta file for both the alleles, so run read generator on both the files separately.
  2. Minimum evolutionary SNP rate is set to 0.0033.

 
Step 3: Read generation
Run “./SInC_readGen” for both the fasta files
generated in Step 2.
 
Usage: ./SInC_readGen [options] <in.ref.fa>
<read_1_profile.txt> <read_2_prof.txt>
 
Example: desired coverage 10 ./SInC_readGen -C 5 -T 1 -R 100
chr22_allele_1.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt
./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_2.fa
100_bp_read1_profile.txt 100_bp_read2_profile.txt

-> -C 5 means fold coverage for chr22_allele_1.fa is 5
-> -T 1 means use 1 core
-> -R 100 means read length 100

 
以下是从一篇论文中摘出的SInC部分:
在这里插入图片描述
在这里插入图片描述

其他仿真软件

SInc是用C语言开发的一款仿真软件,它是开源的,拥有CLI接口,也有自己的error model,但是它存在的问题没有仿真CNA变异;

MetaSim是用JAVA语言开发的一款仿真软件,它拥有CLI和GUI接口,不是开源的,可以仿真pair-end数据,它的缺陷是只有序列生成部分而没有变异仿真部分,即没有将quality value赋值给reads;

FlowSim是用Haskell语言编写的,它拥有CLI接口,是一款开源仿真软件,它的缺陷是没有变异仿真部分且不能仿真Illumina平台的数据,即不能仿真paie-end数据;

GenFrag仿真软件是开源的,有CLI接口,它的缺点是没有变异仿真部分且它的erroe model过分简单;

DwgSim仿真软件是由变异仿真和序列生成两个部分构成的,它有CLI接口且是开源的,它的缺陷是不能模拟真实数据。当然,这些仿真软件共有的一个缺陷是不能仿真CNA变异。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值