EST数据分析

本文介绍了对小麦EST数据的处理方法,包括从GenBank获取的1286914条序列的低质量部分和污染序列去除。利用Python程序和seqclean去除EST序列中的低质量部分和特定序列,接着使用cross_match进行载体序列的masking和验证。此外,还通过计算熵值过滤低复杂度序列,并应用RepeatMasker屏蔽重复序列。在大规模数据处理中,先进行聚类分析能提高后续步骤的准确性。

一、EST数据来源

     本研究所用的小麦EST数据库来自GenBank数据库(截止2013年12月),共1286914条序列

二、低质量序列部分以及污染序列去除

      通过逐条扫描EST序列去掉EST序列中低质量部分。具体步骤为,从5'端开始向3'端扫描每一条EST序列,如果在10bp长度范围内出现两次以上除'A','T','C','G'外的字符,则将该10bp序列以及3'端序列去除。python程序是:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from Bio import SeqIO

out = open('low_quality_wheat_est.fasta', 'w')
record_dict = SeqIO.index('wheat_est.fasta', "fasta")
a = []
for key in record_dict.keys():
    for i in range(len(str(record_dict[key].seq))-10):
        new = record_dict[key].seq.upper()[i:(i+10)]
        if new.count
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值