一、EST数据来源
本研究所用的小麦EST数据库来自GenBank数据库(截止2013年12月),共1286914条序列
二、低质量序列部分以及污染序列去除
通过逐条扫描EST序列去掉EST序列中低质量部分。具体步骤为,从5'端开始向3'端扫描每一条EST序列,如果在10bp长度范围内出现两次以上除'A','T','C','G'外的字符,则将该10bp序列以及3'端序列去除。python程序是:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from Bio import SeqIO
out = open('low_quality_wheat_est.fasta', 'w')
record_dict = SeqIO.index('wheat_est.fasta', "fasta")
a = []
for key in record_dict.keys():
for i in range(len(str(record_dict[key].seq))-10):
new = record_dict[key].seq.upper()[i:(i+10)]
if new.count

本文介绍了对小麦EST数据的处理方法,包括从GenBank获取的1286914条序列的低质量部分和污染序列去除。利用Python程序和seqclean去除EST序列中的低质量部分和特定序列,接着使用cross_match进行载体序列的masking和验证。此外,还通过计算熵值过滤低复杂度序列,并应用RepeatMasker屏蔽重复序列。在大规模数据处理中,先进行聚类分析能提高后续步骤的准确性。
最低0.47元/天 解锁文章
2109

被折叠的 条评论
为什么被折叠?



