生物信息学知识

第一篇   基础知识

第一章 基本概念

第一节 生物信息学文件格式

生物信息学——常见的四种文件格式(fasta, fastq ,sam vcf)

从某种意义上来说,生物信息分析的过程就是进行各种文件格式的转换过程。例如当前很多分析都可以概括为从fastq  ->  bam,从bam  ->vcf  的过程。

一、fasta文件格式

概述:FASTA(Fast All Sequences in A)文件格式是一种常用于存储生物序列信息(如DNA、RNA或蛋白质序列)的文本格式(主要是把序列储存到数据库中的一种形式)。FASTA文件通常用于存储和共享生物学数据,如基因序列或蛋白质序列。

后缀:fa,fasta,fna

格式: 

FASTA文件可以包含一个或多个序列,每个序列都以一个描述行和一个或多个序列数据行组成。

描述行(Header Line):FASTA文件的每个序列都以一个描述行开始,以大于号(“>”)开头,用于序列标记,主要储存序列的描述信息。后面跟着该序列的名称或标识符(为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的)。描述行通常是单行文本,用于标识序列的来源或其他相关信息,序列ID部分可以包含注释信息。

示例:

>Sequence1


序列数据行(Sequence Data Line):紧接着描述行的是实际的序列数据行,序列信息,既为序列本身。序列数据行包含序列的碱基(DNA或RNA)或氨基酸(蛋白质)的字符序列。序列数据行可以跨越多行,但通常为了方便起见,会将序列分为80到120个字符的行。

示例:

ATCGATCGATCGATCG..


示例:

以下是一个包含两个DNA序列的FASTA文件的示例:

>Sequence1

ATCGATCGATCGATCG...

>Sequence2

GCTAGCTAGCTAGCTA...



适用情况:FASTA文件是广泛使用的生物信息学数据格式之一,因为它简单易读,并且适用于存储各种生物学序列的信息。这使得FASTA文件在分析和比对生物序列数据时非常有用。

二、fastq文件格式

概述:FASTQ(Fast Quality Score)文件格式是一种用于存储测序数据的文本格式,通常用于存储DNA或RNA测序结果。FASTQ文件包括序列数据和与每个碱基相关的质量分数信息,以便在测序数据分析中进行质量控制和序列比对。

后缀:fastq, fq

格式:

FASTQ文件中的每个序列通常由一个描述行、一个序列数据行、一个分隔行和一个质量分数行组成,这些行按顺序重复出现,以表示不同的测序读取。FASTQ文件可以包含一个或多个序列,每个序列之间以相同的格式分隔。

描述行(Header Line):FASTQ文件的每个序列都以一个描述行开始,以"@"字符开头,后面跟着该序列的名称或标识符,通常包含有关测序样本的信息。

示例:

@Sample_1


序列数据行(Sequence Data Line):序列数据行包含DNA或RNA序列的字符序列,由A、T、C、G等表示碱基。这些字符表示测序得到的碱基序列。

示例:

ACGTACGTACGT...


分隔行(Separator Line):分隔行通常由一个加号(“+”)开头,后面跟着与序列数据行对应的描述符。尽管分隔行中的内容与描述行相同,但分隔行的存在有助于区分不同部分。

示例:

+


质量分数行(Quality Score Line):质量分数行包含与序列数据行中的每个碱基相关的质量分数。质量分数通常以ASCII字符表示,表示测序仪器对每个碱基的测序质量。较高的ASCII值表示更高的质量。

示例:

BCCDFFFFFGGGG...


示例:

以下是一个包含两个测序序列的FASTQ文件的示例:

@Sample_1

ACGTACGTACGT...

+

BCCDFFFFFGGGG...

@Sample_2

GCTAGCTAGCTA...

+

DDDDDEEEEEE...





适用情况:FASTQ文件广泛用于存储和共享测序数据,以便进行生物信息学分析、基因组学研究和生物学研究。

————————————————

三、sam(/bam)文件格式

概述:SAM(Sequence Alignment/Map)文件格式是一种常用于存储DNA或RNA序列比对(alignment)结果的文本格式,通常用于描述测序数据与参考基因组的比对信息。SAM文件通常包括序列的位置、碱基配对、质量分数等信息。

在SAM文件之后,通常还会生成一个二进制的BAM文件,以节省存储空间和提高数据处理速度。

后缀:sam(/bam)

格式:

文件头(Header):SAM文件的开头通常包括文件头部分,以"@“字符开头。文件头部分包含与比对信息和文件本身相关的元数据(metadata),如测序平台、参考基因组信息、比对软件等。文件头部分以”@“字符开始,后跟标识符(如"PG”、"SQ"等),然后是元数据的具体内容。

    示例:

    @HD     VN:1.6  SO:coordinate

    @SQ     SN:chr1 LN:248956422

    @RG     ID:Sample1     PL:illumina     SM:Sample1


比对记录行(Alignment Records):SAM文件的主体部分包括比对记录,每一行代表一个测序序列的比对结果。比对记录包括多个字段,这些字段之间使用制表符(“\t”)分隔。比对记录的字段包括:

序列名称(QNAME):测序序列的名称或标识符。

比对标志(FLAG):描述比对的一些特征,如是否匹配、是否是原始测序序列等。

参考序列名(RNAME):比对到的参考基因组上的染色体或序列名称。

参考序列位置(POS):比对序列在参考基因组上的起始位置。

映射质量(MAPQ):表示比对的质量得分。

CIGAR字符串(CIGAR):描述序列与参考基因组的对齐方式。

参考序列下游位置(RNEXT):下游比对的参考序列名称。

下游位置(PNEXT):下游比对的起始位置。

序列数据(SEQ):比对到参考基因组上的序列数据。

质量字符串(QUAL):序列的质量分数。

    示例:

    read001  16  chr1  1000  30M  *  =  1000  0  ATCG...  BCCC...


适用情况:SAM文件用于存储比对结果,通常由测序数据分析软件生成。它是生物信息学和基因组学研究中常用的数据格式,用于存储和共享测序数据的比对信息,以便后续分析和解释测序数据。

————————————————

四、vcf文件格式

概述:VCF(Variant Call Format)文件是一种用于存储基因组变异数据的文本格式,通常用于描述DNA或RNA测序数据中的单核苷酸变异和结构变异。VCF文件包括了各种类型的变异信息,如单核苷酸多态性(SNP)、插入/删除(Indel)、复合杂变异等。

后缀:vc

格式:

文件元数据(File Metadata):VCF文件的开头通常包括一些元数据信息,用于描述文件的属性和来源,以及变异数据的版本等。元数据行以"##"开头,可以包括信息字段、格式字段和样本信息字段等。

    示例:

    ##fileformat=VCFv4.3

    ##fileDate=20210920

   ##source=MyVariantCaller

   ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">

   ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">

   #CHROM  POS     ID       REF  ALT     QUAL  FILTER  INFO  FORMAT  Sample1  Sample2


列名(Column Headers):VCF文件的列名行包括了各个字段的名称,通常以"#“开头,后跟字段名称,包括"CHROM”(染色体名称)、“POS”(变异位置)、“ID”(变异标识符)、“REF”(参考碱基)、“ALT”(变异碱基)、“QUAL”(质量分数)、“FILTER”(过滤信息)、“INFO”(变异信息)和"FORMAT"(样本格式)等。

    示例:

    #CHROM  POS     ID       REF  ALT     QUAL  FILTER  INFO  FORMAT  Sample1  Sample2


变异记录行(Variant Records):VCF文件的主体部分包括一行行的变异记录,每一行描述一个变异事件。变异记录行包括了各种字段,这些字段用制表符(“\t”)分隔,包括:

CHROM:变异位点所在的染色体名称。

POS:变异位点在染色体上的位置。

ID:变异的唯一标识符。

REF:参考碱基。

ALT:变异碱基。

QUAL:质量分数,表示变异的质量估计。

FILTER:过滤信息,描述变异是否通过了一些质量过滤。

INFO:包含有关变异的详细信息的字段。

FORMAT:描述每个样本中的数据格式。

样本数据:每个样本的具体数据,包括基因型信息、深度信息、质量信息等。

    示例:

    1       1001    rs123    A    G    20.4   PASS   AF=0.25;DP=30   GT:AD:GQ:PL  0/1:10,20:30:50,0,60



适用情况:VCF文件是用于存储和共享基因组变异信息的标准格式,在基因组学研究和生物信息学分析中广泛使用。它允许研究人员记录和交换关于基因组中的变异的重要信息,以便进一步的研究和解释。VCF文件的格式规范有不同的版本,因此要确保正确解析和处理VCF文件,最好查阅文件的元数据信息以了解其格式版本。

————————————————

第二节 数据库介绍 

    GEO数据有五种:Platform (平台)、Samples (样本)、Series (系列)、DataSet (数据集)、Profile(基因表达谱)。 

    平台为“GPL+数字”,样本为GSM+数字,系列为GSE+数字,数据集为GDS+数字。

1.GSE界面

 Download family 为预处理数据(已初步整理)

Supplementary file 为原始数据

GPL界面: 

 

 

 

  • 18
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值