seqkit根据基因id_ID转换靠的是深厚的背景知识加上一点代码技巧

有学员提问:

请教老师,在分析一个芯片数据时候,遇到这个GPL16686平台,直接看平台信息里面的表格如图,找不到基因名,所以不知道该怎么办,ID转换就卡死了,后续的差异分析,火山图,热图等等都无从下手。

如下所示:

3424623a8e564268cf4579e2e858eecc.png

但,其实这个表格已经是给出来了基因名字,就是 GB_ACC 那一列的内容,属于refseq数据库的ID系列。这个GPL16686平台芯片的难点并不在ID转换,基因注释,反而是在上游处理,质量控制等等,我在:HTA芯片(学徒探索任务) 指出过这一点。

那,为什么大家普遍的问题都集中在ID转换呢,主要是因为大家处于生物信息学初学者这个环节,没办法看到GB_ACC就里面反映过来它是refseq数据库的ID,如果大家注意留意我们生信技能树的基础知识大全,比如24.使用R语言获取人类所有基因的名字,ID,symbol以及别名 就可以看到相应的数据库资源了。 entrez gene ID, HUGO symbol, refseq ID, ensembl ID 这些专有名词,我们也是在生信菜鸟团安排专门的小编整理了这些知识:生信基础知识100讲 。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SeqKit 是一个用于 FASTA/Q 文件处理的工具包,它提供了多种命令行工具可以帮助我们进行不同的操作。如果你需要根据基因ID进行注释,可以考虑使用 SeqKit 中的 `grep` 命令。具体操作步骤如下: 1. 将基因ID和注释信息保存在一个文件中,每行一个,用制表符分隔基因ID和注释信息。例如,文件名为 `gene_annotation.txt`,内容如下: ``` ENSG00000000003 GeneA ENSG00000000005 GeneB ENSG00000000419 GeneC ``` 2. 对于需要注释的 FASTA/Q 文件,使用 `grep` 命令根据基因ID进行匹配,并将注释信息添加到 FASTA/Q 的描述信息中。例如,对于一个名为 `sequences.fa` 的 FASTA 文件,可以使用以下命令: ``` seqkit grep -f gene_annotation.txt -i -p "(.+)" -r "{kv:anno}" sequences.fa > annotated_sequences.fa ``` 其中,`-f gene_annotation.txt` 指定了基因ID和注释信息的文件;`-i` 表示忽略大小写匹配;`-p "(.+)"` 表示匹配整个行;`-r "{kv:anno}"` 表示将注释信息添加到 FASTA/Q 的描述信息中,其中 `kv:anno` 表示从 `gene_annotation.txt` 文件中获取注释信息,并将其添加到 FASTA/Q 描述信息中。 运行以上命令后,会生成一个新的 FASTA 文件 `annotated_sequences.fa`,其中每个序列的描述信息会添加注释信息,例如: ``` >ENSG00000000003_GeneA ATCG... >ENSG00000000005_GeneB ATCG... >ENSG00000000419_GeneC ATCG... ``` 其中,`ENSG00000000003_GeneA` 表示基因ID为 `ENSG00000000003`,注释信息为 `GeneA`。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值