癌症“登月计划”需要大数据作后盾

0?wx_fmt=jpeg

奥巴马总统在不久前的国情咨文中重新阐述了美国要战胜癌症的信心和决心,副总统拜登更是将之命名为癌症的“登月计划”。本文将从大数据角度为癌症“登月计划”做一些分析和阐述。

癌症是什么

简单地讲,癌细胞是基因发生变异了的人体细胞,这些细胞能逃避人体免疫系统的监管,不受限制的疯长,最后导致人体正常器官的衰亡。

早在上世纪70年代,Bishop和Varmus等科学家就发现并证明了第一个癌症基因Src, 该基因的变异可以导致正常细胞变成肿瘤细胞。自那时起,科学家们又陆续发现了上百个和肿瘤有密切关系的肿瘤基因,人们对肿瘤的认识在不断深化。随着人类平均寿命的不断提高,癌症的发病率也水涨船高,但我们治疗癌症的手段仍然差强人意,癌症死亡率高居不下,成为威胁人类健康和寿命的最大敌人之一。即使象乔布斯这样的亿万富翁,在死亡率极高的胰腺癌面前也无能为力。科学在飞速发展,人类在几十年前就登上了月球,但为什么对癌症却无能为力呢?

人类基因组、基因测序和癌症基因组图谱项目(TCGA)

过去几十年,虽然人们对癌症的科学认识不断深入,但真正有了质的飞跃,还是近几年的事情。2003年是现代生物学上值得纪念的一年,人类基因组测序及绘图在这一年得以完成。此后的十几年,基因组测序技术得以蓬勃发展,测序效率上升之快,甚至超越了摩尔定律,同时测序成本则呈指数型下降:人类基因组计划前后花费大约30亿美金,时至今日,完成一个人的基因组测序,成本已经降到1000美金左右。随着第三代测序技术的成熟,效率会继续提高,成本则继续下降。 

0?wx_fmt=png

测序技术的飞速发展,给系统性研究癌症细胞的基因组及基因组变异带来了可能。其中一个典型的代表就是“癌症基因组图谱(The Cancer Genome Atlas, 简称TCGA)”项目。该项目始于2006年,由美国政府牵头,前后花费了两亿多美金,共收集了10000多个病人的资料和基因组数据,除测序外,还收集了基因拷贝数变化、基因表达、基因甲基化、基因调控及蛋白表达水平等分子生物学数据,先后使用了10多个不同的技术平台,更难能可贵的是该项目把癌症研究领域最顶尖的科学家集合在一起,采用类似众筹的方式来分析数据,从而得到最准确的研究结果。项目收集的数据现在高达几个PB,覆盖了30多种不同的癌症疾病。

关于该项目的详细信息,可以参考以下链接:

http://cancergenome.nih.gov (TCGA官网)

http://en.wikipedia.org/wiki/The_Cancer_Genome_Atlas(TCGA Wiki Page)

癌症细胞变异的复杂性癌症的异质性(heterogenity)

TCGA项目已经接近尾声,从现有的研究结果来看,喜忧参半:作为一个大型癌症基因组研究项目,TCGA使得我们对癌症的研究和理解深入了很多,这是令人高兴的方面;但同时TCGA的数据让我们看到了癌症的复杂性,远比我们以前想象的还要高很多。

举个简单例子,下图是显示了TCGA130位膀胱癌病人的突变频谱,几乎没有病人有完全相同的变异基因及变异数量。

0?wx_fmt=png
- 在TCGA不同膀胱癌病人中捕捉到的基因变异数:少则10几个变异,多则近2000个不同变异

癌症的异质性及复杂性已经受到越来越多的科学家的重视,这也是癌症临床治疗所面临的最棘手的问题。以前所认为的相同器官起源的肿瘤都是单一的、类似的观点有很大的误导性,更多的肿瘤是由很多不同的亚肿瘤克隆组成的,并且肿瘤本身在发育及迁移的过程中仍然在不断进化,这也是肿瘤容易产生抗药性,并且极容易复发的根本原因。临床已经有很多例证,癌症复发时,往往存在新的突变频谱,带来耐药性,导致最终不治。

去年北京基因组研究所和美国芝加哥大学合作发表了一篇PNAS论文,在一块3.5厘米的肝癌组织中的不同位点取样,然后进行深度基因测序,竟然发现了总数高达1亿的突变位点。这一突变的复杂性相较于TCGA数据来说,又上了一个量级。随着单细胞测序技术的成熟,相信不久的将来我们会对肿瘤细胞变异的复杂性有更好的理解。

0?wx_fmt=png肿瘤异质性说明:肿瘤“糖豆机”不是由单一的“白球”组成的,更多的肿瘤像是图中右侧的糖豆机,每个肿瘤都是有很多不同变异的亚肿瘤克隆组成的复合体

癌症大数据现状:精准医疗引千帆竞发

正是由于肿瘤细胞变异的复杂性及肿瘤的异质性,每个病人的肿瘤都不尽一样,肿瘤治疗需要更准确的诊断和可定制的治疗手段。2015年,奥巴马总统提出了“精准医疗”计划- 虽然该计划涵盖的外延更广泛,但计划的实施无疑是从癌症治疗开始的。著名的基因组研究所Broad Institute的所长Eric Lander博士认为,TCGA只是个开始,要战胜癌症,每一种疾病都需要至少10000个病人的样本、临床资料及基因组数据,他还特意强调了要全基因组测序。这将是个巨大的工程。

除了政府及各大癌症中心和科研机构,这一市场的巨大潜力也吸引了很多公司来抢滩:位于Boston的Foundation Medicine(公司网址 https://www.foundationmedicine.com)已经先行一步,在癌症基因诊断领域小有名气,积累了大量的临床数据;美国著名的测序公司Illumina最近则宣布成立子公司Grail, 联手比尔盖茨及Jeff Bezos,全力打造癌症外周血测序诊断的”圣杯”;基因组研究的急先锋CraigVenter博士当然也不甘落后,新打造的公司Human Longevity Inc全力介入癌症基因组测序及诊断中,并且从谷歌挖掘了优秀的数据科学家,要用机器学习和深度学习的手段来分析癌症大数据,破译癌症密码。

征服癌症, 中国需要自己的癌症大数据

癌症问题在中国也是日益严重的大问题:人口的老龄化,环境的污染,都使得癌症的发病率居高不下,并且日趋严重。征服癌症,保障人民的身体健康,也是中国政府迫在眉睫的事情。不久前中国政府也宣布实施了自己的精准医疗计划。很多民间资本也看到了这个领域的巨大潜力,大有来势汹汹之势。本人所在的TCGA数据中心,高峰期居然有超过90%的数据下载来自中国。

TCGA的数据虽然有很高的参考及科研价值,但TCGA的数据在取样上有明显的种族偏向,白人样本超过可80%(参见下图),考虑到流行病学上的种族差异,以及地区和环境的差异,中国更需要适合自己国情的自己的癌症大数据(当然着并不意味着TCGA的数据完全没有参考价值)。当然数据获取的标准和质量自然是不容忽视的,高质量的数据才会带来高质量的研究分析结果。华大基因在这方面已经踏出了坚实的一步,希望在不久的将来,中国也为人类最终战胜癌症作出令世人瞩目的贡献。

0?wx_fmt=png
- TCGA病人样本的种族偏向- 白人病人占到80%(数据来源于TCGA临床数据分析)

结语

完成征服癌症的“登月计划”,其复杂度及困难程度并不比“登月计划”低,更多的数据,更多的优质数据,将是完成这一计划不可或缺的前提条件。

原文发布时间为:2016-01-29

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值