教程
密码子使用分析
随这个codonW发行版应该附带了一个测试数据集的序列(input.dat)。我们将使用这组序列作为密码子使用分析的一个典型例子。这个测试数据集来源于Saccharomyces cerevisiae染色体III的开放阅读框(ORFs),如EMBL特征表中注释的SCCHRIII序列条目(登录号X59720)。在当前的EMBL(1997年6月第51版)中,注释的ORFs数量为172。文件input.dat包含了其中的111个ORFs。为什么移除了一些ORFs的原因将在下面解释。
在本教程中,将使用codonW的命令行语法,从命令行选择的所有选项也可以使用菜单系统选择。有关更多信息,请阅读命令行帮助(codonw -help)或者只需输入"codonw"并使用特定于菜单的在线帮助。
仔细构建你的基因数据集。
始终记住,正如任何分析一样,尤其是密码子使用分析,GIGO(垃圾进,垃圾出)。尽可能多地检查有关数据的信息来源,特别是原始出版物和序列注释。重要的是序列是代表性样本。由于它们与先前确定的转座元素Ty2和Ty5中的基因有注释(并且有序列同一性),因此从数据集中移除了五个ORFs。这些ORFs在位置1537-2127、2118-2558、2816-3742、84714-86030、84714-90384处被注释。转座元素基因的密码子使用与染色体基因不同。
进一步检查序列注释,那些没有被分配基因名称或SwissProt登录号的序列被移除。SwissProt注释也经过了检查,被描述为假设性但与其他蛋白质没有任何序列同一性的基因被移除。
检查基本序列完整性
应检查序列以确认它们符合一些基本的基因特征。每个序列可能合理地预期有一个起始密码子和一个翻译终止密码子,并且没有内部终止密码子。那些不匹配这些特征的序列,或者有部分密码子或不可翻译密码子的序列,codonw会用警告消息标记。
要对输入数据进行初步检查以检查简单的序列问题:
codonw input.dat -nomenu
默认情况下,codonw会将每个基因的密码子使用情况报告到文件input.blk中。由于这个数据集没有问题,所以不应该有警告消息。然而,基于EMBL第50版(当时SCCHRIII有230个注释的ORFs)的这个数据集的先前版本的分析,产生了这些典型的警告消息。
警告:序列178 “SCCHRIII.PE178______” 没有以公认的起始密码子开始
警告:序列178 “SCCHRIII.PE178______” 没有以终止密码子终止
警告:序列202 “SCCHRIII.PE202______” 没有以公认的起始密码子开始
警告:序列202 “SCCHRIII.PE202______” 有1个内部终止密码子(s)
警告:序列202 “SCCHRIII.PE202______” 没有以终止密码子终止
每个序列都按其在输入文件中的数字出现次数进行标记(即这些是输入文件中的第178个和第202个序列)以及其序列标题行。
产生警告消息的序列应仔细检查以确定原因。一些序列可能被注释为部分序列,因此缺少起始或终止密码子或存在3’部分密码子是意料之中的。注意5’部分密码子的存在会导致移码,移除5’部分密码子是至关重要的。除非它们产生的移码(不正确的)阅读框架包含内部终止密码子,否则codonw无法检测到这个问题。移码基因序列的密码子使用可能会对对应分析(COA)产生不利影响(尽管这样的基因通常可以在COA图上作为离群值被识别)。
如果序列警告是由于注释不正确导致的,应手动更正。那些无法解释或辩解的警告(例如,具有内部终止密码子的基因)应该被排除。这些警告仅用于信息提示,并不排斥序列从分析中排除。
密码子使用指数
一旦对数据进行了初始质量检查,我们就可以进行密码子使用分析(严格来说,我们可以同时生成COA和密码子使用指数任务)。CodonW计算的一些密码子使用偏差指数(即Fop、CAI和CBI)使用有关高表达基因的首选密码子集的信息。这些信息是物种特有的,并不适用于所有物种(大多数真核生物和许多原核生物似乎在高表达基因中没有显示密码子偏好)。因此,必须小心确保使用了适当的最佳密码子集。对于大多数物种,最佳密码子是未知的,因此在这个阶段不应该计算这些指数。然而,对于Saccharomyces cerevisiae,这些信息是已知的,所以我们可以立即计算这些密码子使用指数。稍后我们将看到codonW如何识别最佳密码子,并能为您的物种生成这些信息。
默认的最佳密码子和密码子适应值是E.