EST数据分析

最新推荐文章于 2023-09-08 22:59:50 发布

原创

最新推荐文章于 2023-09-08 22:59:50 发布 · 5.9k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#基因组-生物信息学 #python

本文介绍了对小麦EST数据的处理方法，包括从GenBank获取的1286914条序列的低质量部分和污染序列去除。利用Python程序和seqclean去除EST序列中的低质量部分和特定序列，接着使用cross_match进行载体序列的masking和验证。此外，还通过计算熵值过滤低复杂度序列，并应用RepeatMasker屏蔽重复序列。在大规模数据处理中，先进行聚类分析能提高后续步骤的准确性。

一、EST数据来源

本研究所用的小麦EST数据库来自GenBank数据库（截止2013年12月），共1286914条序列

二、低质量序列部分以及污染序列去除

通过逐条扫描EST序列去掉EST序列中低质量部分。具体步骤为，从5'端开始向3'端扫描每一条EST序列，如果在10bp长度范围内出现两次以上除'A','T','C','G'外的字符，则将该10bp序列以及3'端序列去除。python程序是：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from Bio import SeqIO

out = open('low_quality_wheat_est.fasta', 'w')
record_dict = SeqIO.index('wheat_est.fasta', "fasta")
a = []
for key in record_dict.keys():
    for i in range(len(str(record_dict[key].seq))-10):
        new = record_dict[key].seq.upper()[i:(i+10)]
        if new.count