Bioinformatics Data Skills by Oreilly学习笔记-10

最新推荐文章于 2022-12-23 20:09:00 发布

weixin_42953727

最新推荐文章于 2022-12-23 20:09:00 发布

阅读量590

点赞数 1

分类专栏： bioinformatics 文章标签： Bioinformatics

本文链接：https://blog.csdn.net/weixin_42953727/article/details/100525977

版权

本文介绍了生物信息学中广泛使用的两种序列格式：FASTA和FASTQ。FASTA包含序列描述和核苷酸序列，而FASTQ则增加了每个碱基的质量分数。文章讨论了这些格式的特点，包括如何计数序列条目、核苷酸编码、质量评分，并提到了处理低质量碱基的软件如FastQC和sickle。还探讨了Python中的Biopython和readfq模块来解析FASTA/FASTQ文件并计算核苷酸计数。

摘要由CSDN通过智能技术生成

Chapter 10 Working with Sequence Data

Nucleotide (and protein) sequences are stored in two plain-text formats widespread in bioinformatics: FASTA and FASTQ—pronounced fast-ah (or fast-A) and fast-Q, respectively. We’ll discuss each format and their limitations in this section, and then see some tools for working with data in these formats.

The FASTA Format

$ head -10 egfr_flank.fasta
>ENSMUSG00000020122|ENSMUST00000138518
CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGT
TATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGT
TCATCAAAACAGTTCATTGCCCAAAATGTTCTCAGCTGCAGCTTTCATGAGGTAACTCCA
GGGCCCACCTGTTCTCTGGT
>ENSMUSG00000020122|ENSMUST00000125984
GAGTCAGGTTGAAGCTGCCCTGAACACTACAGAGAAGAGAGGCCTTGGTGTCCTGTTGTC
TCCAGAACCCCAATATGTCTTGTGAAGGGCACACAACCCCTCAAAGGGGTGTCACTTCTT
CTGATCACTTTTGTTACTGTTTACTAACTGATCCTATGAATCACTGTGTCTTCTCAGAGG
CCGTGAACCACGTCTGCAAT
A common

Naming convention is to split the description line into two parts at the first space.

The FASTQ Format

The FASTQ format extends FASTA by including a numeric quality score to each base in the sequence.

@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA
+
JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
@DJB775P1:248:D0MDGACXX:7:1202:12782:49716
CTCTGCGTTGATACCACTGCTTACTCTGCGTTGATACCACTGCTTAGATCGG
+
IIIIIIIIIIIIIIIHHHHHHFFFFFFEECCCCBCECCCCCCCCCCCCCCCC

A common pitfall is to treat every line that begins with @ as a description line. However, @ is also a valid quality character.

The Ins and Outs of Counting FASTA/FASTQ Entries

$ grep -c "^>" egfr_flank.fasta
5

$ grep -c "^@" untreated1_chr4.fq
208779

$ wc -l untreated1_chr4.fq
817420 untreated1_chr4.fq

817,420/4 = 204,355

$ bioawk -cfastx 'END{print NR}' untreated1_chr4.fq
204355

Nucleotide Codes

Lowercase bases are often used to indicate soft masked repeats or low complexity sequences
Repeats and low-complexity sequences may also be hard masked, where nucleotides are replaced with N (or sometimes an X).

Base Qualities

Qualities are restricted to the printable ASCII characters, ranging from 33 to 126
ASCII decimal to character in Python

>>> qual = "JJJJJJJJJJJJGJJJJJIIJJJJJIGJJJJJIJJJJJJJIJIJJJJHHHHHFFFDFCCC"
>>> [ord(b) for b in qual]
[74, 74, 74, 74, 74, 74, 74, 74, 74, 74, 74, 74, 71, 74, 74, 74, 74, 74, 73,
73, 74, 74, 74, 74, 74, 73, 71, 74, 74, 74