Easyseq v1.0 核酸序列处理工具

       每当我抵达一个我自认为的处女之地,却总发现早已有人在此等待,以我微不足道的能力向先驱者致以最为崇高的敬意。 -题记

————————————————————————————————————————————————————————————————————————————————————

在之前的工作中,因为要确认设计的PCR引物对于不同物种的覆盖情况,要处理大量的核酸序列,在工作的过程中及复盘中,总结出了一些工作流程,并编写为该套工具,实现序列截取、PCR扩增子的获取、靶标位点不匹配碱基分析的功能。希望我微不足道的工作,能为有同样需求的朋友带来帮助。

由于技术能力有限,本工具采取了不同源文件放置在不同文件夹里面的策略,并根据扩展名进行识别,

   

1.简介

Easyseq v1.0工具基于脚本程序编译而成,作为Windows平台核酸序列操作工具使用;主要功能为序列过滤、截取、扩增子获得、引物探针突变位点分析;并集成了一个简易引物探针分析pipeline;

重要提示:所有程序及文件组成请放在1级目录下(如E:\Easyseq\[文件目录及脚本程序]),最好打开计算机的显示文件扩展名功能,以方便使用,待处理的文件路径请勿存在中文或下划线等符号,处理的文件最好只有一个单词命名,处理后的文件名如需进一步处理,请勿修改文件名

2.工具组成

序号

名称

作用

1

pmt.filter

各类参数的储存文件,所有处理的基础

2

[0]filter

基于参数文件进行数据过滤

3

[1]match

基于过滤数据进行引物探针比对

4

[2]classify

根据参数列表文件对数据进行分类

5

[3]maplus

根据参数列表文件对扩增子及引物探针匹配位置序列进行提取

6

[4]mutation

根据引物探针匹配位置碱基序列进行突变分析

7

[5]extract_id

提取参数文件提取数据库中所含列表文件ID

8

[6]cut

根据参数文件对目标序列进行截取

9

[7]mismatch

根据mismatch文件输出突变碱基位点

#pmt.filter可使用文本格式打开

3.使用方法

3.1参数列表文件

3.2简易pipeline

3.2单独功能

数据储存目录

处理结果

单独使用

database\*.fa

→[0]filter→

filtered\*.filtered

简易pipeline

database\*.fa

→[1]match→

matched\*.matched

matched\*.unmatched

matched\*.unmatched

→[2]classify→

classified\*.fa

classified\*.fa

→[3]maplus→

mapped\*.hit

mapped\*.hit

→[4]mutation→

mutation\分析结果

单独使用

matched\*.*

→[5]extract_id→

extract_id\[species_name].id

单独使用

database\*.fa

→[6]cut→

cutted\database.cutted

单独使用

mismatch\*.mismatch

→[7]mismatch→

mismatch\分析结果

4.功能详解

4.1序列截取(cut)

将要截取的序列文件以fa格式存储于database文件夹,注意文件命名不要有下划线,最好只有一个单词组成。

以文本格式打开pmt文件,修改cut相应的参数,保存退出;双击cut运行对序列进行批量截取,截取后的文件存储在cutted文件夹下,以fa格式存储,*.cutted命名;

4.2序列对比(目前最多支持两对引物探针组合)(match)

将要截取的序列文件以fa格式*.filtered文件名存储于filtered文件夹,注意文件命名不要有下划线,最好只有一个单词组成。

以文本格式打开pmt文件,修改maplus相应的参数,保存退出;双击cut match运行对序列进行批量对比,截取后的文件存储在matched文件夹下,以fa格式存储,*.unmatched/matched/Primer1.matched/Primer2.matched命名;

4.3序列分类(classify)

将要截取的序列文件以fa格式存储于matched文件夹,以*.umatched命名,注意文件命名不要有下划线,最好只有一个单词组成。

以文本格式打开pmt文件,修改分组分类标准相应的参数,保存退出;双击match运行对序列进行分类,分类结束后,双击classify将对matched文件夹下的*.unmatch文件进行分类,分类结果保存在classified文件夹下;

4.4序列过滤(filter)

将要截取的序列文件以fa格式存储于database文件夹,注意文件命名不要有下划线,最好只有一个单词组成。

以文本格式打开pmt文件,修改filter相应的参数,保存退出;双击filter运行对序列进行批量截取,截取后的文件存储在cutted文件夹下,以fa格式存储,*. filtered命名;

4.5序列信息提取(extractid)

将要截取的序列文件以*.unmatched文件名存储于matched文件夹,注意文件命名不要有下划线,最好只有一个单词组成。

以文本格式打开pmt文件,修改分组相应的参数,双击extractid运行对序列进行批量截取,截取后的文件存储在extractid文件夹下,以fa格式存储,*.id命名;

4.6扩增子提取(maplus)

将要截取的序列文件以fa格式存储于clasified文件夹,注意文件命名不要有下划线,最好只有一个单词组成。

以文本格式打开pmt文件,修改maplus相应的参数,保存退出;双击maplus运行对序列进行批量扩增子提取,处理后文件存储在mapped文件夹下,以fa格式存储,*.fa(扩增子区域)或*.hit(引物探针匹配区域)命名;

4.7突变位点分析(mutation)

将要截取的序列文件以fa格式存储于mapped文件夹,以*.hit命名存储[上游引物探针下游引物]序列,注意文件命名不要有下划线,最好只有一个单词组成。

以文本格式打开pmt文件,修改map相应的参数,保存退出;双击mutation运行对序列进行分析,分析结果存储于mutation文件夹下;

4.8生信平台补充(目前最多支持两对引物探针组合)(mismatch)

将生信平台处理的mismatch文件存储于mismatch文件夹下;

以文本格式打开pmt文件,修改maplus相应的参数,保存退出;双击运行mismatch对mismatch文件进行解读,结果存储于mismatch文件夹下;

                                                                                     

  • 18
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值