有学员提问:
请教老师,在分析一个芯片数据时候,遇到这个GPL16686平台,直接看平台信息里面的表格如图,找不到基因名,所以不知道该怎么办,ID转换就卡死了,后续的差异分析,火山图,热图等等都无从下手。
如下所示:
![3424623a8e564268cf4579e2e858eecc.png](https://i-blog.csdnimg.cn/blog_migrate/45db356db0ff28b10ffe05614ea8f0b7.jpeg)
但,其实这个表格已经是给出来了基因名字,就是 GB_ACC 那一列的内容,属于refseq数据库的ID系列。这个GPL16686平台芯片的难点并不在ID转换,基因注释,反而是在上游处理,质量控制等等,我在:HTA芯片(学徒探索任务) 指出过这一点。
那,为什么大家普遍的问题都集中在ID转换呢,主要是因为大家处于生物信息学初学者这个环节,没办法看到GB_ACC就里面反映过来它是refseq数据库的ID,如果大家注意留意我们生信技能树的基础知识大全,比如24.使用R语言获取人类所有基因的名字,ID,symbol以及别名 就可以看到相应的数据库资源了。 entrez gene ID, HUGO symbol, refseq ID, ensembl ID
这些专有名词,我们也是在生信菜鸟团安排专门的小编整理了这些知识:生信基础知识100讲 。