NCBI accession number, GI and GeneID

Accession number :
An Accession number is a unique identifier given to a sequence when it is
submitted to one of the DNA repositories (GenBank, EMBL, DDBJ). The initial deposition of a
sequence record is referred to as version 1. If the sequence is updated, the version number is
incremented, but the Accession number will remain constant.

GI:
The GenInfo Identifier is a sequence identification number for a nucleotide sequence. If a
nucleotide sequence changes in any w ay, a new GI number will be assigned. A separate GI number
is also assigned to each protein translation within a nucleotide sequence record, and a new GI is
assigned if the protein translation changes in any w ay. GI sequence identifiers run parallel to the
new accession.version system of sequence identifiers (see the description of Version).

GeneID
GeneID is a unique identifier that is assigned to a gene record in Entrez Gene. It is an
integer and is species specific. In other words, the integer assigned to dystrophin in human is
different from that in any other species. For genomes that had been represented in LocusLink, the
GeneID is the same as the LocusID. The GeneID is reported in RefSeq records as a 'db_xref' (e.g.
/db_xref="GeneID:856646", in GenBank format).

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在R语言中,`geneid`通常指的是基因ID,可能是实验数据或生物信息学数据库中的一个标识符,用于唯一地表示一个基因。如果你想要在R中进行基因ID的转换,可能涉及到以下几个步骤: 1. 数据加载:首先,你需要确保你的基因ID数据来自一个合适的数据源,比如Gene Expression Omnibus (GEO), Ensembl, NCBI Entrez Gene等。使用`read.table()`, `read.csv()`, 或者`read_gexf()`等函数来加载数据。 2. 数据清洗:检查数据中是否存在缺失值、错误的格式或者需要标准化的编码。可能需要使用`na.omit()`, `strptime()`, 或者`gsub()`等函数进行处理。 3. 转换或映射:如果基因ID不是常见的标准格式(如Ensembl ID转HGNC ID),你可能需要使用生物信息学数据库API(如Bioconductor的`AnnotationHub`)或预定义的转换文件(如.gmt文件)来查找对应的关系。例如,`AnnotationHub`提供了许多数据库的接口,你可以用`hub <- AnnotationHub()`,然后`get Annotation("ENSEMBL")`获取对应的映射。 4. 应用转换:一旦你有了转换规则,可以用`ifelse()`或者`match()`等函数来应用这些规则,将原始的基因ID转换成目标格式。 ```R # 假设你有一个数据框df,其中包含原始基因ID gene_id_column <- "original_gene_id" df$target_gene_id <- ifelse(df$gene_id_column %in% ensembl_map, ensembl_map[df$gene_id_column], NA) ``` 5. 处理缺失值:对于转换后可能出现的缺失值,可以根据需求选择填充(如用`NA`或特定值),或者删除含有缺失值的行。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值