以构建绵羊 PPARG 基因过表达质粒为例
主要利用的数据库有 NCBI 和 Uniprot 数据库,首先在 NCBI 检索绵羊 PPARG 基因信息,可以发现绵羊 PPARG 有8个转录本,而人就更多了,有16个转录本。这时就需要明确一个概念,构建过表达质粒使用的是 CDs 序列,转录本一般是包含CDs序列和非编码序列,因此,不同的转录本可能会有共同的CDs序列,从而大大降低选择的难度。因为除人、小鼠、果蝇等模式生物外,其他物种一般均是 Predicted mRNA,缺少必要的验证信息,因此需要引入人或小鼠的序列作为参照。
人、绵羊 PPARG 基因序列比对
方框中的就是有些转录本含有相同的CDs序列,但此时仍然有2-3种,甚至4、5种CDs序列,这时需要依据这些转录本是否为 MANE sequence 或者 UniPort canonical sequence 进行下一步选择。
MANE sequence 或者 UniPort canonical sequence
MANE (Matched Annotation from NCBI and EBI) 指的是 NCBI 和 Ensembl 两个数据库能够互相对应的转录本,这种同时注释到的转录本的可信性还是比较高的。
UniPort canonical sequence:UniPort 有自己的一套标准来判定一个基因存在多个转录本时,到底一个是最佳的,具体有以下几个标准,当不满足前四个标准才会选择最长的转录本作为 carnonical sequence,可信性也是比较高的
是否有文献支撑
当 NCBI MANE 转录本和 UniPort carnonical sequence 为不同的转录本时,就需要看是否有相应文献支撑,一般这两个都有文献支撑,这时就看个人选择了。一般选最近发表或者文章质量比较高的转录本。
对应的绵羊转录本即可
可以选择与人转录本对应的绵羊转录本,或者也可进行跨物种比较分析,看看这两段序列在不同物种的保守型