特别关注 | 想给基因取个名儿?也要按照基本法!

生物信息学习的正确姿势

NGS系列文章包括NGS基础、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述))、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集)等内容。

撰文 | 伊凯

责编 | 兮

名字里有什么呢?把玫瑰叫成别的名字,它还是一样的芬芳。

——《罗密欧与朱丽叶》

对于生命科学领域的年轻研究者们来说,最习以为常、见怪不怪的一件事,除了隔壁实验室某整天排位上分的博士师弟又发了CNS、某不是自己在谈恋爱就是在看电视里的人谈恋爱的硕士师妹又挂上一篇review成功毕业之外;恐怕就属教科书里、文献纸上处处存在的各种基因的大写、小写、正体、斜体的,或有意义或没意义的的名字了。它们就像你家门口的那块不知从何时起就立着的指示牌,虽然上面标着“济南路”,但你很清楚它的尽头站着的不是大明湖畔的夏雨荷,而是一块钱可以买到四个窝窝头的早餐店。

毕竟,在人类基因组计划完成二十年后、各类物种的功能基因组学图谱日臻完善的今天,想要在基因组中找到一个新的功能元件,并证明它够得上称之为“基因”的格,从而为基因字典加入一个新的标签,简直比登天还难。

不过,还是有一些做起科研来如同坐火箭一般的牛人,凭借高超的太空捕捞技术,能够一飞冲天、直入充满基因暗物质的茫茫宇宙,摘下某颗未曾被人欣赏过的新星。

此时,一个科学家的自我修养要求他们必须把搞清楚这个新基因的功能作为首要任务,但大部分人却往往忍不住先干起了一件特“俗”的事——给基因取名!那种冲动,让人不禁怀疑这些科学家们是否是在弥补给自己孩子取名时没有话语权的遗憾。

然而,令他们没有想到的是,在给基因取名这件事上,因为一个位于英格兰剑桥郡的低调却高贵的委员会的存在,他们实现自己的恶趣味的想法从一开始就注定失败。

这个掌控着生命科学的门面行业——基因命名的委员会,即国际人类基因组组织基因命名委员会(Human Genome Organization Gene Nomenclature Committee, H(UGO)GNC)。2020年8月3日,HGNC再一次现身,用一篇发表在Nature Genetics上的评论文章Guidelines for human gene nomenclature,重申了自己对于基因命名这件事的严肃性的执着,向一切和自己对着干的人和物(包括经常把自己批准的标准基因名无端转变成日期标签的微软Excel软件, Excel改变了你的基因名,30% 相关Nature文章受影响,NCBI也受波及)发出了最严正的劝诫(和最无奈的妥协,见后文)。

要理解HGNC存在的意义,就不得不提到,在基因命名史前的漫漫长夜中,有多少无辜的基因婴儿曾经“惨遭毒手”,一出生就被冠上一个注定命运多舛的姓名。

如果说像TP53这样因为认知偏差导致“错误”命名的(对应蛋白名为p53,来源于SDS-PAGE蛋白电泳结果,表观分子量为53 kDa,实际分子量为43.7 kDa)【1】,或者BRCA1这样因为和某种疾病直接挂钩而简单化命名【2】的尚可接受;那么像Sonic hedgehog(正式基因名缩写为SHH)【3】或Pokemon(基因名后确定为ZBTB7A)【4】这样被二次元爱好者强行霸占,或者像Son of sevenless(基因名缩写为SOS1)【5】这样由于处于果蝇基因sevenless调控下游就被安排了一个爸爸,像fruitless(基因名后确定为ZBTB22)【6】这样因为具有改变果蝇性取向能力就自带嘲讽气质的,则无疑是突破了人类和基因和平共存的“底线” (这些基因的名字太有才了,研究一下都可以发10分文章)。

令人安慰的是,上述“令人发指”的花式命名行为中,有的在被科学共同体纠正之前就已经遭受了“出圈”被怼的待遇:跟世嘉公司放过音速索尼克商标被疯狂科学家挪用的结局不同,任天堂在自己名下的精灵宝可梦商标被斯隆·凯特琳癌症中心的科学家使用之后的一年内,即公开威胁要控告对方,理由是“不希望宝可梦的形象因与癌症产生联系而受损【7】

在这种秩序崩坏的情况下,HGNC和它所制定的基因命名准则的出现,无疑让那些出于各种人为因素曾经“误入歧途”的基因名重获了新生。

早在上个世纪六、七十年代,生命科学家们就意识到了给基因规范化命名的重要性。在1979年于苏格兰爱丁堡召开的人类基因组大会上,基因命名委员会首次被正式赋予批准和制定基因名称的权力,同时发布了历史上首个基因命名准则【8】。这一准则在经历了多代更迭后,形成了一个完整、多样化且适应性强的体系,它的主要内容包括:

1. 基因符号必须唯一;

2. 基因符号应是对应基因名称的缩写;

3. 基因符号应只包含拉丁字母和阿拉伯数字;

4. 基因符号不应包含任何标点符号;

5. 基因符号不应以字母G指代“gene”;

6. 基因符号不应包含物种指代,如用“H/h”指代人类。

基于这一严格的标准,HGNC如今已为超过四万个人类基因组位点命名,其中有近一半为非蛋白编码基因,包括RNA基因、lncRNA基因和假基因等。与蛋白编码基因命名过程的直截、清晰相比,非编码基因的命名往往具有不少困难,主要集中在是否具有功能性证据、物种同源程度高低、与已注释区域存在重叠等关键问题上。例如HGNC专门针对近年来受到广泛关注的在生物功能上存有争议的lncRNA的命名流程进行了设计:

HGNC所制定的基因命名规则的生命力不仅来自于其基于的科学原则和共同体共识,也来源于与时俱进的灵活性。例如,基因DROSHA曾经被命名为RNASEN,但由于相应研究领域的强烈呼吁,最终被修改为DROSHA。又如,微软公司开发的便民高科技人工智能表格处理软件Excel一直因其强行转化某些基因名称为日期标签而广受业内诟病(如MARCH1->1-Mar,SEPT1->1-Sep);一篇发表于2016的研究甚至发现有接近五分之一之多的基因组学研究论文存在因为被Excel“误解”而导致的命名错误【9】;作为回应,HGNC将存在这一问题的27个基因的名称全部进行了修改,例如将MARCH1改为MATCHF1,将SEPT1改为SEPTIN1等。Excel改变了你的基因名,30% 相关Nature文章受影响,NCBI也受波及

值得一提的是,HGNC并不是一切广义上与人类基因的“名称”相关的事务的最终决定者。例如,HGNC不负责批准和制定基因编码之蛋白的符号与名称、不负责注释启动子、增强子之类的基因调控元件等。当然这并不意味着花式命名狂热者们就可以在这些领域中“胡作非为”了:以增强子为例,包括FANTOM和Ensembl在内的多个国际组织或机构都具有根据各自确定的功能性证据准则进行增强子注释和命名的权力,只不过在一致性和稳定性上略逊于HGNC罢了。

话说回来,HGNC作为一个非营利性、非政府的科学公益组织,对基因命名这项事务的“管理”,很大程度上只是一种基于学术共同体意愿的无偿服务,而并不象征着中心化的统一控制。这就意味着HGNC在批准和制定基因符号与名称时,仍要最大限度地尊重作为基因发现者的科学家们的理念和“创意”。毕竟,不负责任的无厘头式命名只是极少数,绝大部分科学家在给基因命名时还是能够做到既简洁明晰,又富含意义。

在这方面,一个经典的例子是,芝加哥大学分子进化生物学家龙漫远教授在上个世纪九十年代对果蝇嵌合基因“精卫”(Jingwei, jgw)及其祖先基因进行命名时,受到中国古代神话传说《山海经》的启发,将黄帝基因(yellow-emperor, ymp)经复制/倍增(duplication)形成炎帝基因(yande, ynd),随后又经由乙醛脱氢酶基因(Alcohol dehydrogenas, Adh)的反转录转座(retroposition)插入而形成精卫基因的奇妙过程,以神话中的人物关系代称,创造性地刻画了精卫基因的分子起源过程,以及它从一个被认为是无功能的假基因(pseudogene)转变为确证有功能的蛋白编码基因的“死而复生”的跌宕经历【10】

原文链接:

https://www.nature.com/articles/s41588-020-0669-3

制版人:十一

参考文献

1. Levine, Arnold J., and Moshe Oren. "The first 30 years of p53: growing ever more complex." Nature reviews cancer 9.10 (2009): 749-758.

2. Miki, Yoshio, et al. "A strong candidate for the breast and ovarian cancer susceptibility gene BRCA1." Science 266.5182 (1994): 66-71.

3. Roessler, Erich, et al. "Mutations in the human Sonic Hedgehog gene cause holoprosencephaly." Nature genetics 14.3 (1996): 357-360.

4. Maeda, Takahiro, et al. "Role of the proto-oncogene Pokemon in cellular transformation and ARF repression." Nature 433.7023 (2005): 278-285.

5. Rogge, Ronald D., Chris A. Karlovich, and Utpal Banerjee. "Genetic disp of a neurodevelopmental pathway: Son of sevenless functions downstream of the sevenless and EGF receptor tyrosine kinases." Cell 64.1 (1991): 39-48.

6. Demir, Ebru, and Barry J. Dickson. "fruitless splicing specifies male courtship behavior in Drosophila." Cell 121.5 (2005): 785-794.

7. Simonite, Tom. "Pokémon blocks gene name." (2005): 897.

8. Shows, T. B., et al. "International system for human gene nomenclature (1979) ISGN (1979)." Birth defects original article series 15.11 (1980): 96.

9. Ziemann, Mark, Yotam Eren, and Assam El-Osta. "Gene name errors are widespread in the scientific literature." Genome biology 17.1 (2016): 1-3.

10. Long, Manyuan, et al. "The origin of new genes: glimpses from the young and old." Nature Reviews Genetics 4.11 (2003): 865-875.

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值