【UCSC Genome Browser】- Genes and Gene Predictions - NCBI RefSeq
RefSeq(RNA reference sequences collection,) 是NCBI维护的标准参考序列数据库,提供了具有生物意义上的非冗余的基因、转录本及蛋白质序列,详细介绍可以参考RefSeq官网(https://www.ncbi.nlm.nih.gov/refseq/)
UCSC Genome Browser 将这一权威数据库作为一个track,方便研究人员进行基因特征的分析。
RefSeq 配置信息
-
display mode
信息的展示由多到少,full(全部显示)>pack>squish>dense>hide(隐藏) -
Label
可以根据自己的需要显示gene symbol, accession, **OMIM ID
List subtracks 中有了更多细节上的设置,这些设置实际上是根据RefSeq对基因注释的程度进行的分级。
- RefSeq All 包含了所有 curated(仔细挑选) and predicted(预测的)的基因
NM_* 表示curated 编码蛋白的转录本,同理NR表示非编码转录本,NP表示蛋白的氨基酸序列;
XM_* 表示predicted编码蛋白的转录本,XR、XP 同样都为predicted;
YP_* 表示 curated 蛋白氨基酸序列,不涉及到转录,主要用来标记细菌、病毒和线粒体;
-
与 RefSeq Diffs 是RefSeq与人类参考基因组的差异,差异包含几种形式:mismatch(错配), short gap(基因组上小于45bp的未知序列),shift gap(因为基因组重复序列的原因造成了比对异常),double gap (基因组gap很长足够作为一个内含子),skipped (没有比对到基因组)
-
RefSeq Alignments 是其他物种与人类基因组的比较
-
UCSC RefSeq 表示RefSeq的数据在UCSC的重新注释,*个人认为这个注释还是比较准确的
我个人推荐的配置是选择 RefSeq Curated 与 UCSC RefSeq
RefSeq 基因信息
基因显示的颜色
track 左侧会有基因名称及ID,同时基因会有颜色,颜色越深表示该信息越准确,颜色越浅表示该信息是预测得到的,不可信。如果基因名称同时带有蓝色背景那么说明,这个基因是被review过的,高度可信,比如这里的NM_004006, 就是DMD基因的通用转录本。
基因转录本介绍
鼠标点击(建议中键新标签打开)track 左侧转录本名称,会显示该转录本的介绍,都是一些基本信息,没有Gencode全面(感兴趣可以在本公众号寻找Genecode的介绍)。
