密码子偏好性分析

密码子偏好性分析_密码子统计数据库与使用方法介绍(深度好文)

密码子数据库及密码子偏好性分析
在众多的分析工具中,用于密码子使用统计的Codon Usage Database数据库及用于密码子偏好性分析的Graphical codon usage analyse是最为常用的软件系统,本文将以二者为例对密码子数据库及密码子偏好性分析进行介绍。

一:密码子使用统计数据库

Codon Usage Database(http://www.kazusa.or.jp/codon/ 是由植物基因研究第一实验室(The First Laboratory for Plant Gene Research)Kazusa DNA Research Institute的Yasukazu Nakamura博士开发的生物密码子表的利用情况统计。数据来源于GenBank的DNA序列数据库,是GenBank的Codon Usage Tabulated数据库的扩展和整合。
在该数据库中29,311个物种的不同形式的密码子使用情况被统计,包含1,756,171 个全长编码区序列。该数据库的数据来源于NCBI GenBank的Flat File。
数据库的使用方法:
该数据库可以对物种的拉丁名进行密码子使用情况的搜索,但数据库的搜索是不支持英文别名的。比如对于酵母密码子的搜索,要用其拉丁名Saccharomyces cerevisiae,而”yeast”的搜索结果显示为零。另外,数据库对物种也进行了字母排序的统计,同样对酵母,进入S起始的“字典”里可以找到。对于线粒体、叶绿体的密码子使用情况,数据库同样给出了汇总整理。
以Saccharomyces cerevisiae的密码子使用统计搜索为例,返回结果为

 Saccharomyces cerevisiae [gbpln]: 14288
 Saccharomyces cerevisiae killer virus M1 [gbvrl]: 1
 Saccharomyces cerevisiae var. diastaticus [gbpln]: 4
 Saccharomyces cerevisiae virus L-A [gbvrl]: 4
 Saccharomyces cerevisiae virus L-BC [gbvrl]: 1
 mitochondrion Saccharomyces cerevisiae [gbpln]: 89

其中第一个为我们所要的酵母的密码子使用情况统计,它在统计过程中参考了14288个CDS,其链接如下:

 Saccharomyces cerevisiae [gbpln]: 14288 CDS's (6465088 codons)
 ________________________________________
 fields: [triplet] [frequency: per thousand] ([number])
 ________________________________________
 UUU 26.1(168775) UCU 23.4(151438) UAU 18.8(121495) UGU 8.1( 52260)
 UUC 18.4(119114) UCC 14.2( 91850) UAC 14.8( 95577) UGC 4.8( 30777)
..........................................................................................................................
 GUA 11.8( 76018) GCA 16.2(105001) GAA 45.6(294953) GGA 10.9( 70558)
 GUG 10.8( 69512) GCG 6.2( 40093) GAG 19.2(124242) GGG 6.0( 38969)

Coding GC 39.78% 1st letter GC 44.58% 2nd letter GC 36.63% 3rd letter GC 38.12% 统计的是每1000个碱基中其特定密码子出现的频率,比如GCU 21.2(136804)代表GCU密码子在mRNA中出现频率为21.2‰,在所统计的14288CDS中共出现了136804次。在网页的下面显示List of codon usage for each CDS 的链接,是对每个CDS的密码子使用统计。从数据的可读性考虑,PrimerX编写了Codon Usage Analyzer在线密码子统计表处理软件(http://bioinformatics.org/codon/cgi-bin/codon.cgi),它使得对密码子的统计用图表的形式显示出来,更加的直观可读。对于上例中的密码子使用情况统计表,处理后的形式为:

  Amino Acids Codons
  A Ala  Alanine  GCU (21.2) GCA (16.2) GCC (12.6) GCG (6.2)       
  C Cys  Cysteine  UGU (8.1) UGC (4.8)               
  D Asp  Aspartic acid  GAU (37.6) GAC (20.2)               
  E Glu  Glutamic acid  GAA (45.6) GAG (19.2)               
  F Phe  Phenylalanine  UUU (26.1) UUC (18.4)               
  G Gly  Glycine  GGU (23.9) GGA (10.9) GGC (9.8) GGG (6.0)       
  H His  Histidine  CAU (13.7) CAC (7.8)               
  I Ile  Isoleucine  AUU (30.1) AUA (17.8) AUC (17.1)           
  K Lys  Lysine  AAA (41.9) AAG (30.8)               
  L Leu  Leucine  UUG (27.2) UUA (26.2) CUA (13.4) CUU (12.3) CUG (10.5) CUC (5.4)
  M Met  Methionine  AUG (21.0)                   
  N Asn  Asparagine  AAU (35.7) AAC (24.9)               
  P Pro  Proline  CCA (18.2) CCU (13.5) CCC (6.8) CCG (5.3)       
  Q Gln  Glutamine  CAA (27.3) CAG (12.1)               
  R Arg  Arginine  AGA (21.3) AGG (9.2) CGU (6.4) CGA (3.0) CGC (2.6) CGG (1.7)
  S Ser  Serine  UCU (23.4) UCA (18.7) UCC (14.2) AGU (14.2) AGC (9.7) UCG (8.6)
  T Thr  Threonine  ACU (20.2) ACA (17.8) ACC (12.7) ACG (8.0)       
  V Val  Valine  GUU (22.0) GUA (11.8) GUC (11.7) GUG (10.8)       
  W Trp  Tryptophan  UGG (10.4)                   
  Y Tyr  Tyrosine  UAU (18.8) UAC (14.8)               
       STOP  UAA (1.0) UGA (0.7) UAG (0.5)      
二:密码子偏好性分析

对于密码子偏好性的分析,有Correspondence Analysis of Codon Usage软件分析程序codonw(http://codonw.sourceforge.net//)和https://www.biologicscorp. com/tools/GCContent/ ,graphical codon usage analyser在线分析软件(http://gcua.schoedl.de/faq/faq.php?on=cut)及detaibio稀有密码子分析软件(http://www.detaibio.com/tools/rare-codon-analyzer.html)。而对于E. coli,由于其作为发酵工程表达蛋白的最主要的手段,因此Morris Maduro博士针对E. coli开发了E. coli Codon Usage Analyzer(http://www.faculty.ucr.edu/~mmaduro/codonusage/usage.htm),目前的版本为V2.1,它对于在E. coli中异源蛋白的表达效率给出了很好的建议。而由于graphical codon usage analyser的直观性和方便性,在密码子偏好性分析中得到了广泛的应用。下面就重点介绍以图形形式进行密码子偏好性分析的graphical codon usage analyser系统。
Graphical codon usage analyser是由***科学家Thomas Schödl开发设计的以图形形式对异源基因表达的密码子使用分析,用以帮助异源基因表达时对异源基因进行改造,以适应受体物种,避免由于翻译时密码子使用情况的限制使受体物种对外源基因表达产生负面影响。
Graphical codon usage analyser有三大方面的功能。它们完成了对特定序列的异源表达密码子使用情况的统计以及不同物种密码子使用情况间的比较。它与Codon Usage Database 联合使用,可以完成对Codon Usage Database 中已存在的所有物种的密码子偏好性的分析。

  1. each triplet position vs. usage table的功能是针对输入的特定序列进行异源表达分析的。在交互式的选择界面中输入你分析序列的名称、其来源物种以及DNA序列,然后选择要进行异源表达的物种,系统即返回表达时针对每一个密码子进行翻译的效率。以GFP蛋白为例
    我们看到其翻译时密码子的使用效率非常的低,所以可以通过序列改造的方式对序列进行编辑。或者通过在高效表达受体中表达。上图即是该基因在C. reinhardtii中的表达情况,我们看到通过选用C. reinhardtii进行表达,其翻译的效率得到明显的提高。
  2. each codon vs. usage table的功能是针对输入的特定序列,其不同的氨基酸所对应的密码子在来源物种及异源物种中出现的情况的比较。操作方式同上。同样对GFP蛋白来说,部分比较图如图三所示,可以看到针对Ala和Arg其在来源物种A. victoria及异源物种C. reinhardtii中不同密码子的使用频率统计。
  3. compare two usage tables的功能则不是针对特定基因序列的,而是把两个不同物种的密码子使用频率进行对比,估计其总体翻译效率的差异。在交互式的选择中,只要指定两种想要比较的物种,即可得到其数据。
三.CodonW结果解读

1.密码子在生物体遗传信息的mRNA到蛋白质的传递过程中起着关键作用,编码20种不同氨基酸的密码子共61种,其中2种氨基酸(Met和Trp)由一种密码子编码,18种氨基酸由2种或2种以上的同义密码子(synonymous codon)编码,这种现象称为密码子简并性(Degeneracy),同义密码子通常只在第三位碱基上不同(摇摆性)。
2.不同物种、组织或基因对同义密码子的使用频率呈现出丰富的多样性,即同义密码子偏好性(synonymous codon usage bias,SCUB)。
密码子使用偏好性普遍存在于生物界,在绝大多数基因(基因组)中都已经发现了同义密码子使用偏好性。
在这里插入图片描述
标准密码子表:https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi#SG1

下面是几个常用的评价密码子偏好性的指数:
同义密码子相对使用度(Relative synonymous codon usage, RSCU)
密码子适应指数(Codon adaption index , CAI )
有效密码子数(Effective Number of Codon,Nc)
Frequency:该密码子在编码总基因密码子中出现的频率。

01 同义密码子相对使用度(Relative synonymous codon usage, RSCU)
指对于某一特定的密码子,在编码对应氨基酸的同义密码子间的相对概率。该值的计算方法为某一密码子所使用的频率与该密码子所编码的氨基酸的所有密码子平均使用的次数之间的比值,如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然 。计算公式如下:
在这里插入图片描述
Xij是编码第i个氨基酸的第j个密码子的出现次数
ni是编码第i个氨基酸的同义密码子的数量

02 密码子适应指数( Codon adaption index , CAI )
该指数以一组具高表达水平的基因为参考 , 测量某一个基因的密码子偏好情况和这些高表达基因密码子偏好情况的接近程度 , 如果一个基因完全使用高表达基因中所用的密码子 , 则其C AI 值为 1 。目前这个指数已被广泛用来预测基因的表达水平。
CAI指具有物种特异性,不能用于物种间的比较。

03 Effective Number of Codon(ENC/Nc)有效密码子数
指基因中使用的有效密码子的数量。该值反映同义密码子非均衡使用的偏好程度。
与CAI 不同 ,Nc反应的是某个基因的密码子偏好程度 , 如果一个基因平均使用每一个密码子 ,则其 Nc 为 61 ,如果一个基因只使用每组同义密码子中的一个 ,则其 Nc 为 20。ENC值越低,说明密码子使用偏好性越强。
一般认为,当ENc≤35,则该基因具有显著的密码子偏好性。Nc是评价基因整体密码子偏好性中最具有参考价值的参数。可以通过比较Nc值来确定内源基因表达量的相对高低。通常高表达基因的密码子偏好程度大,其Nc值较小;低表达基因则含有较多种类的稀有密码子,其Nc值较大。

04 Franction、Frequency
如cusp的分析结果中,第三列为每个密码子的Franction,第四列为Frequency,那是什么意思呢?
1.Franction表示各个密码子在编码该氨基酸的密码子中所占的比例,即Franction=某个密码子出现的次数/该密码子编码的氨基酸的所有密码子出现的次数。
2.Frequency表示该密码子在编码总基因密码子中出现的频率,一般表示为在1000个密码子中该密码子出现的次数,即Frequency=某个密码子出现的次数*1000/基因所有密码子总数
cusp分析结果

四、使用心得

在实际的使用过程中发现利用Codon Usage Database和Graphical codon usage analyser连用,可达到非常强大的异源表达蛋白翻译效率的估算。经验上认为,对于以水稻为代表的单子叶植物,其GC含量高,较双子叶植物及细菌等物种来说,密码子偏好性强,更不容易进行针对非单子叶植物的异源表达。而相比之下,双子叶植物在该问题上则不存在翻译效率上的问题。由于单子叶植物组培体系的周期长、效果差,水稻功能基因的挖掘及其在双子叶植物中的表达以成为必然,然而对于表达过程中的效率以及表达鉴定等方面的问题的困扰,可以通过密码子偏好性分析并从中找到答案。

  • 3
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值