每当我抵达一个我自认为的处女之地,却总发现早已有人在此等待,以我微不足道的能力向先驱者致以最为崇高的敬意。 -题记
————————————————————————————————————————————————————————————————————————————————————
在之前的工作中,因为要确认设计的PCR引物对于不同物种的覆盖情况,要处理大量的核酸序列,在工作的过程中及复盘中,总结出了一些工作流程,并编写为该套工具,实现序列截取、PCR扩增子的获取、靶标位点不匹配碱基分析的功能。希望我微不足道的工作,能为有同样需求的朋友带来帮助。
由于技术能力有限,本工具采取了不同源文件放置在不同文件夹里面的策略,并根据扩展名进行识别,
1.简介
Easyseq v1.0工具基于脚本程序编译而成,作为Windows平台核酸序列操作工具使用;主要功能为序列过滤、截取、扩增子获得、引物探针突变位点分析;并集成了一个简易引物探针分析pipeline;
重要提示:所有程序及文件组成请放在1级目录下(如E:\Easyseq\[文件目录及脚本程序]),最好打开计算机的显示文件扩展名功能,以方便使用,待处理的文件路径请勿存在中文或下划线等符号,处理的文件最好只有一个单词命名,处理后的文件名如需进一步处理,请勿修改文件名;
2.工具组成
序号 | 名称 | 作用 |
1 | pmt.filter | 各类参数的储存文件,所有处理的基础 |
2 | [0]filter | 基于参数文件进行数据过滤 |
3 | [1]match | 基于过滤数据进行引物探针比对 |
4 | [2]classify | 根据参数列表文件对数据进行分类 |
5 | [3]maplus | 根据参数列表文件对扩增子及引物探针匹配位置序列进行提取 |
6 | [4]mutation | 根据引物探针匹配位置碱基序列进行突变分析 |
7 | [5]extract_id | 提取参数文件提取数据库中所含列表文件ID |
8 | [6]cut | 根据参数文件对目标序列进行截取 |
9 | [7]mismatch | 根据mismatch文件输出突变碱基位点 |
#pmt.filter可使用文本格式打开
3.使用方法
3.1参数列表文件
3.2简易pipeline
3.2单独功能
数据储存目录 | 处理结果 | ||
单独使用 | database\*.fa | →[0]filter→ | filtered\*.filtered |
简易pipeline | database\*.fa | →[1]match→ | matched\*.matched matched\*.unmatched |
matched\*.unmatched | →[2]classify→ | classified\*.fa | |
classified\*.fa | →[3]maplus→ | mapped\*.hit | |
mapped\*.hit | →[4]mutation→ | mutation\分析结果 | |
单独使用 | matched\*.* | →[5]extract_id→ | extract_id\[species_name].id |
单独使用 | database\*.fa | →[6]cut→ | cutted\database.cutted |
单独使用 | mismatch\*.mismatch | →[7]mismatch→ | mismatch\分析结果 |
4.功能详解
4.1序列截取(cut)
将要截取的序列文件以fa格式存储于database文件夹,注意文件命名不要有下划线,最好只有一个单词组成。
以文本格式打开pmt文件,修改cut相应的参数,保存退出;双击cut运行对序列进行批量截取,截取后的文件存储在cutted文件夹下,以fa格式存储,*.cutted命名;
4.2序列对比(目前最多支持两对引物探针组合)(match)
将要截取的序列文件以fa格式*.filtered文件名存储于filtered文件夹,注意文件命名不要有下划线,最好只有一个单词组成。
以文本格式打开pmt文件,修改maplus相应的参数,保存退出;双击cut match运行对序列进行批量对比,截取后的文件存储在matched文件夹下,以fa格式存储,*.unmatched/matched/Primer1.matched/Primer2.matched命名;
4.3序列分类(classify)
将要截取的序列文件以fa格式存储于matched文件夹,以*.umatched命名,注意文件命名不要有下划线,最好只有一个单词组成。
以文本格式打开pmt文件,修改分组分类标准相应的参数,保存退出;双击match运行对序列进行分类,分类结束后,双击classify将对matched文件夹下的*.unmatch文件进行分类,分类结果保存在classified文件夹下;
4.4序列过滤(filter)
将要截取的序列文件以fa格式存储于database文件夹,注意文件命名不要有下划线,最好只有一个单词组成。
以文本格式打开pmt文件,修改filter相应的参数,保存退出;双击filter运行对序列进行批量截取,截取后的文件存储在cutted文件夹下,以fa格式存储,*. filtered命名;
4.5序列信息提取(extractid)
将要截取的序列文件以*.unmatched文件名存储于matched文件夹,注意文件命名不要有下划线,最好只有一个单词组成。
以文本格式打开pmt文件,修改分组相应的参数,双击extractid运行对序列进行批量截取,截取后的文件存储在extractid文件夹下,以fa格式存储,*.id命名;
4.6扩增子提取(maplus)
将要截取的序列文件以fa格式存储于clasified文件夹,注意文件命名不要有下划线,最好只有一个单词组成。
以文本格式打开pmt文件,修改maplus相应的参数,保存退出;双击maplus运行对序列进行批量扩增子提取,处理后文件存储在mapped文件夹下,以fa格式存储,*.fa(扩增子区域)或*.hit(引物探针匹配区域)命名;
4.7突变位点分析(mutation)
将要截取的序列文件以fa格式存储于mapped文件夹,以*.hit命名存储[上游引物探针下游引物]序列,注意文件命名不要有下划线,最好只有一个单词组成。
以文本格式打开pmt文件,修改map相应的参数,保存退出;双击mutation运行对序列进行分析,分析结果存储于mutation文件夹下;
4.8生信平台补充(目前最多支持两对引物探针组合)(mismatch)
将生信平台处理的mismatch文件存储于mismatch文件夹下;
以文本格式打开pmt文件,修改maplus相应的参数,保存退出;双击运行mismatch对mismatch文件进行解读,结果存储于mismatch文件夹下;