基因名字是我们日常数据分析、阅读文献中最常见的一类术语,以下根据自己工作经验探讨下基因名在生物信息学数据分析中常见的坑!
坑1:一个基因有两种名字
基因的名字分成两种:
一种是给计算机看的,也就是各种数据库中的基因ID,最常用的基因id数据库来源包括:Ensembl,NCBI,UCSC等;
另一种是给人看的,就是我们常见的gene symbol,例如TP53。
所以,根据名字来判断是哪个数据库中的id,是数据分析小伙伴的“职业修养”。
对于human来说,推荐使用Genecards(GeneCards - Human Genes | Gene Database | Gene Search)网站进行查询。
坑2:基因名字是变化的
基因名不是一成不变的。随着我们对基因更加深入地了解,基因名也会更新。
以这篇M5C regulator-mediated methylation modification patterns and tumor microenvironment infiltration characterization in lung adenocarcinoma(Translational lung cancer research,IF:6.498)为例。
啥?13个m5C修饰相关基因中仅11个有表达。TCGA LUAD中有几百例样品,其中有2个基因在这几百例里边都没有表达?不合逻辑啊!
经过查询,我们发现,不是这两个基因没有表达,是人家名字变了。
DNMT2的新名字是TRDMT1;NSUN1的新名字是NOP2。估计是分析人员直接用的旧名字搜索,发现TCGA里边没有这两个名字,所以就认为人家没有表达了。这个坑有点大啊!
因为文献里边的名字一般都是滞后的,当遇见报告里边只给一列gene symobl的时候,你文献里边的基因可能在你数据里边就查不到。
坑3:Excel会改变你的基因名
这个坑影响面很广,很早之前就被期刊报告过。
由于我们一般都是用excel打开数据,所以如果公司给你的不是真正的excel格式的文件,比如txt文件,tsv文件,csv文件,实际为txt格式的xls文件等的时候,这个坑你就要想办法自己填了。直接粘贴到excel里边也不一定行,你需要的是真正的excel格式。
常见被excel改变的基因包括:
2310009E13
FEB2
MAR1
DEC1
2310009E13
OCT4
APR1
SEP2
SEP-1
FEB1–FEB11
MARCH1–MARCH11
SEPT1–SEPT14
小贴士:我们是直接给客户excel格式文件滴,虽然增加了代码量,但是不会让客户踩坑。
坑4:基因名是区分大小写的
对于纯数字id的基因名是无所谓的,但是对于带有字母的基因名来说,字母是区分大小写的,有的是全部大写,有的是首字母大写,有的是全部小写。比如人类的基因名字绝大部分都是大写,但是也有极个别是小写,例如C12orf45。所以在做匹配等的时候,C12orf45和C12ORF45是不一样的。这时需要使用lower或者upper函数将名字全部转成小写或者大写,然后再进行匹配。
坑5:Not Available的基因名
基因名也是很诡异的,比如你见过基因名为NA的基因吗?虽然它现在已经华丽丽地变身成了XK,BUT部分数据库中用的还是NA。例如我们下载的cBioportal网站数据集Stomach Adenocarcinoma (TCGA Firehose Legacy) RNAseq数据中,基因名还是NA。
NA本身没有问题,但是如果你用R来读取的话,坑就出现了:In R (or R Studio), NA stands for Not Available. Each cell of your data that displays NA is a missing value。难怪我读了好多次都读不进去,这个坑也太坑了。
坑6:一个名字两个基因?
这种现象也非常常见,以人类为例,在TCGA最新版的RNAseq数据集中,TMSB15B这个基因,在Ensembl数据库中是两条记录。在数据分析的时候,如果以genesymbol这列作为标识符的话,它就是一个基因,而以Ensembl geneid为标识符的话,它是两个基因。这个坑令人费解啊!所以一般在进行诸如cibersort免疫浸润分析,GSEA分析时,需要先collaspe这些基因名,也就是名字要unique(唯一),不能有重复。
坑7:Affymetrix一个探针集对应多个基因
做GEO芯片分析时,经常看到这种基因sybol被//分割的现象,这种在处理的时候也要注意。例如做GO分析时,我们一般把SUPT20H和DES作为两个基因来处理。
坑8:中文基因名
很遗憾,所有的资料都是英文的,没有中文版的。我们在全国科学技术名词审定委员会事务中心的术语在线(https://www.termonline.cn/)官网查不到,能查到的仅仅是散落在各个期刊里的中文翻译。当然也有老师总结过这些中文基因名,例如昆明医学院张闻老师所著的《人类基因功能手册》,手册对两万多个人类基因的功能注解进行整理和翻译,内容包 括基因的 NCBI 正式符号、中英文名称、细胞成分、分子功能、生命过程、相关疾病、 OMIM 编号和染色体定位等八项内容。但是很可惜,网上能够拿到的版本是2006年的发布的。
坑9:权威 vs官网
NCBI是我们日常工作中用的最多的网站,那么该数据库中的基因名是“官方”的吗?在科研界,committee(委员会)和consensus(共识)很流行,而基因名也是这两者的产物,所以HUGO Gene Nomenclature Committee网站Home | HUGO Gene Nomenclature Committee就是获得认可的人类基因命名资源(The resource for approved human gene nomenclature),即我们说所的official gene symbol。
坑10:到底有多少基因?
要回答这个问题,首先要明确你对基因的定义。如果你认为的“基因”是蛋白质编码基因,那么人类有约2w个基因;如果你认为的“基因”还包括非编码RNA,假基因等等,那么HUGO数据库中有约4w个approved基因名,而Ensembl数据库有约6w个geneid,当然TCGA也是约6w个。
坑11:坑你没商量,坑我也没商量
以上都是坑别人的,当然也有被坑的时候。比如客户给我100个基因名,有新有旧,有全拼还有只言片语,要我在分析结果中标注下,怎么办?这时只能一个一个去genecards上搜索,十分麻烦啊!比如给我这些:cintillo,collagen,Six1/2-2, POU2/3基因,我是不是想吐血呢?所以当你给别人基因的时候,最好给数据库中的ID,而不是你随手写的名字,否则我们做数据分析的小伙伴怎么办?给你查吧,浪费时间,不给你查吧,结果肯定出问题。
总结:
- 基因名区分大小写,且不是固定不变的
- 基因名可能被excel改变
- 基因名没有中文版
- 数据分析时要确定你使用的是哪个版本的注释
So,小小的基因名也有大学问。欢迎大家在后台留言讨论基因名的问题!
最后,附上这两篇文章,有兴趣的同学可以看看:
1. Mistaken identifiers: gene name errors can be introduced inadvertently when using Excel in bioinformatics
2. Gene name errors: Lessons not learned
微生信云平台 注册用户38000 引用399
微生信云平台(微生信-您身边的数据分析、可视化专家)以150多款在线作图、在线数据分析为基本方式,致力于0代码分析科研数据,0代码展示数据结果,帮助生命科学、医学等领域的科研工作者更便捷地分析数据,了解数据,挖掘数据背后的生物医学意义,助力科研,促进知识传播。