人类dna信息量_你到底有多少基因?科学家公布人类基因数量引发争议

不过,很多遗传学家仍不相信所有最新提出的基因都能经得起仔细推敲。他们的批评强调了辨别新基因甚至定义一个基因的难度。

“20年来,人们一直致力于此项研究,但我们仍未获得答案。”带领团队开展最新研究的约翰斯·霍普金斯大学计算生物学家Steven Salzberg表示。

2000年,随着基因组学界就有多少人类基因将被发现的问题展开热烈讨论,Ewan Birney发起了GeneSweep竞赛。如今身为欧洲生物信息学研究所(EBI)联合所长的Birney在一年一度的基因组学会议期间,在一间酒吧里最先下注。

这场竞赛最终吸引了1000多人参与以及3000美元的累积赌注。关于基因数量的赌注从多于31.2万个到不足2.6万个不等,平均在4万左右。当时,估测的数量范围已经缩小,但仍存在不同意见。

基因数量依据被分析的数据、利用的工具以及剔除错误信息的标准而有所不同。最新计数利用了一个更大的数据集、另一种不同于此前努力的计算方法,以及定义基因的更宽泛标准。

Salzberg团队利用了基因型组织表达(GTEx)项目的数据。该项目对从几百具尸体上采集的30多个不同组织的RNA进行了测序。RNA是DNA和蛋白质之间的“媒介”。研究人员想辨别出编码蛋白质的基因以及不编码蛋白质但仍在细胞中扮演重要角色的基因。为此,他们组装了GTEx的9000亿个微小RNA片段并将其同人类基因组进行比对。

不过,仅一段DNA被表达为RNA并不意味着它是一个基因。为此,该团队尝试利用各种标准过滤掉噪音。例如,他们将获得的结果同来自其他物种的基因组进行比较,并且推断远亲生物共享的序列可能在进化过程中被保存下来,因为它们是有用的,基因也可能如此。

研究人员获得了21306个蛋白质编码基因和21856个非编码基因——远多于两个最广泛使用的人类基因数据库中的基因数量。由EBI维护的GENCODE基因集包括19901个蛋白质编码基因和15779个非编码基因。由美国国家生物技术信息中心(NCBI)管理的RefSeq数据库拥有20203个蛋白质编码基因和17871个非编码基因。

NCBI基因组研究人员、RefSeq 之前的负责人Kim Pruitt表示,出现这一差异的部分原因可能是Salzberg团队分析的数据量不同。不过,还有另外一个重要差异。GENCODE和RefSeq均依赖于人工管理——有人评审每个基因的证据并且作出最终判断。Salzberg团队则完全依赖于计算机程序筛选数据。

“如果人们喜欢我们的基因目录,那么或许几年后我们将成为人类基因的仲裁者。”Salzberg说。

不过,很多科学家表示,他们需要更多证据以确信最新目录是准确的。协调GENCODE人工注释工作的EBI计算生物学家Adam Frankish介绍说,他和团队已经扫描了Salzberg团队辨别的约100个蛋白质编码基因。根据他们的估测,仅有1个看上去是真正的蛋白质编码基因。

与此同时,Pruitt小组分析了Salzberg团队公布的约十几个新的蛋白质编码基因,但并未发现任何符合RefSeq标准的基因。一些同看上去属于侵入人类祖先基因组的逆转录病毒的基因组区域重叠,剩下的则属于极少被翻译成蛋白质的其他重复性片段。

不过,Salzberg认为,一些重复序列可被视为基因。一个例子是出现在RefSeq 中并且编码在结直肠癌中过度表达的蛋白质的ERV3-1。Salzberg还承认,位于其团队目录中的新基因有待该团队和其他人确认。

中国生物技术网诚邀生物领域科学家在我们的平台上,发表和介绍国内外原创的科研成果。

注:国内为原创研究成果或评论、综述,国际为在线发表一个月内的最新成果或综述,字数500字以上,并请提供至少一张图片。投稿者,请将文章发送至weixin@im.ac.cn。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值