FALCON组装参数学习
(2017-06-27 13:15:32)
转载▼
分类: 三代 |
############################################
pa_DBsplit_option= -a -x500 -s200
将所有reads转换成二进制形式,并按照一定的大小例如400M分成小的block,每个block间进行相互比对,使用kmer在相互比对的block之间寻找关联,关联结果存储在las文件中。举个例子一个3G的基因组,按照300M可分成10份。假如kmer=14, 4**14 = 268,435,456每一种kmer在基因组中出现10次。那300M一种kmer随机出现的概率不超过1次。主要是考虑重复序列的问题。当遇到小基因组的时候2M基因组,200X测序。你再把它分成400M一个block,设置t=100,显然一个也找不到了,因为平均都是200X,这个时候解决的办法就是缩小block大小。默认t=100会消耗掉很多内存。如果是小基因组建议设置成50M。也就是-s=50例如大肠杆菌。
-a 每个ZMW孔只取最长的subreads,如果考虑所有reads,请添加参数-a(如果测序数据够的情况下可以不用这个参数,如果不够需要添加这个参数).
-x忽略长度低于500reads
############################################
pa_HPCdaligner_option=-v -B10 -t16 -e0.75 -M32 -l1800 -k18 -h240 -w8 -s1000 -T4
如果基因组组分有偏好性(例如65% AT rich)应该设置b参数。
M参数控制内存。
l默认是1000,低于这个长度的序列不用比对
s默认是100,输出点也可以设置成500提高速度,也有1000
e准确性默认是0.7一般的设置成0.75
t参数是控制在一个block里一个kmer出现的最多次数,这个参数有的设置8,12,16.这个值越小速度越快。
k(kmer)要小于32,线程数目T默认是4.
B参数决定一个job中包含的block之间比对的数目,因为命令总数一定。B的参数越大job数目也就越小,但是每个job运行的时间较长;B参数越小,每个job包含的运行命令越小,运行时间短,但是job数目增加了。这个参数很多文献中使用128但是还是设置的小一些例如24(也有设置为4的),这样你可以多投递几个任务。
将两条序列进行比对,放在矩阵的位置上,如果完全相似则是一条对角线,一般不是这种情况,而是多处相似。这就产生了两条平行线,平行线之间的距离称为带宽(w默认6,26,有的文献用的是8)当然是越小比对越精确,宽度有了还有长度,这长度就是h(默认35,有的文献设置80,240,480)当然是越长越好,速度越快。
############################################
ovlp_HPCdaligner_option =-v -B10 -t32 -M32 -k24 -h750 -e.96 -l1500 -s1000
与ovlp_HPCdaligner_option 相比以上的参数中如果上面的-t参数设置16,则这里的-t可以设置为32也可以一样,而这里的e可以设置到0.9以上(一般是0.96也有0.92)。而-l参数一般是这里设置的比上面的小也可以等于一般是一般例如上面设置为1000则下面设置为500,如果上面设置4800,下面设置为2400。
理想状态length_cutoff_pr这个值设置在10x-15x 。如果调低这个参数则对应legnth_cutoff、falcon_sense_option也要调整。
job_*是daligner输出目录
m_*运行目录一般是你分成多少block就有多少个文件夹
https://github.com/PacificBiosciences/FALCON/wiki/Somethings-to-think-about-for-tuning-assembly-parameters
分享: