Adrian Lee一生致力于研究乳腺癌,这意味着他可以同时面对着很多疑难杂症。「没有任何两个乳腺癌是完全一样的。癌症远比我们想象的要复杂。」 Lee说。Lee是宾夕法尼亚大学的药理学家和化学生物学家。
Lee正在使用基因技术来全面了解乳腺癌,并且利用这些知识来指导对病人的治疗决定。「现在我们可以从单个样品中去分析多个变量,例如DNA的改变、RNA的改变和甲基化的改变。全基因组扫描可以帮助建立更好的系统生物学,从而使得我们可以了解一个特定肿瘤究竟是什么地方出错了。」
目前的肿瘤测序并以往任何时候都要快,要便宜,且更容易。通过许多研究人员收集测序数据,并且上传到公共数据库,例如癌症基因组图谱(TCGA),我们将有机会来描述乳腺中产生的许多不同类型的癌症。「曾经这个目标的挑战是产生数据,而这些问题现在已经解决了。现在的挑战是数据处理和数据分析——解释这些突变,并且和肿瘤专家沟通。」
匹兹堡大学的研究人员正在努力找出患有乳腺癌的病人的分子特征和宿主的临床数据之间的联系,这些临床数据包括与人年龄、种族和体重等相关的统计信息。他们正在着手建立这些临床相关性、治疗的相互作用和结果的电子健康档案。「这就好像我们要从一个大草垛中去找出一个针头一样。同时我们也在努力将这根针和很多其他事情联系起来。」 Lee说。从病人的电子档案中将所有的数据收集起来,这需要庞大的基础工程的支持。匹兹堡已经积累了5千万亿字节,即500千兆字节,这些数据需要400000台新iPhone 6设备才能存储。
将这些从实验室获得的大量测序数据和正在和乳腺癌抗争的个体联系在一起需要无数时间和超强的的电脑计算能力的支持。大数据时代需要那些适应嘈杂噪声的研究人员,以及在创建灵活的计算机程序方面的老手。
从数据到知识
大数据研究人员采取一个大的数据集,然后从中寻找模式。这样做是希望可以找到突变,然后与相应的药物治疗相联系。这是个体化医疗的精髓:从病人的肿瘤中筛选一组生物标记物,然后选择最佳治疗方案来对抗癌症。大数据的研究人员认为,通过分析数千个肿瘤的数据可以获得相应模式,从而可提高筛查和诊断,进一步有利于提出合理的治疗方案。
Lee及其同事已经表明,大数据科学可以引导我们重新思考乳腺癌。他们使用了两种公共数据库——癌症基因组图谱(TCGA)和国际乳腺癌联盟的分子分类学(METABRIC),这些数据库包含了数千种乳腺癌肿瘤的基因、RNA转录子和蛋白质信息——来分析年轻人和年老一些的妇女的乳腺肿瘤中分子特征的差异。年龄低于40岁的女人更容易具有更糟的疾病:他们更可能具有晚期癌症、更差的预防诊断结果和更糟的存活几率。
该团队也分析了45岁以下(即有可能绝经前的女性)和55岁以上(有可能绝经后的女性)的女性的肿瘤数据。「我们仔细观察了你可能观察的任何数据,包括基因的突变、核糖核酸的突变、肿瘤的基因表达、变型中的某些特定基因表达数量的不同和DNA甲基化水平。他们发现绝经前的女性其情况很不一样,尤其是基因的表达这一部分。」
当研究人员发现越来越罕见的基因突变时,这些问题变得越来越严峻。Lee刚刚看完了2000中基因突变的电子表格,「其中之一是ER突变,但是我如何从其他中间筛选呢?这是一个非常基础的问题。」他指的是一个突变的雌激素受体,也是乳腺癌中一个常见的突变。
一种思路是分析突变基因影响的细胞途径,这意味着使用开发的算法将所有收集到的分子信息整合,并分类成共同成长类或细胞周期途径类。研究人员可以使用这些分类的信息就影响途径来描述这些肿瘤细胞,而不是单纯地说影响分子。加州大学圣克鲁兹分校生物信息学家Josh Stuart开发了一种可以集成各种基因数据集的计算方法,这些基因数据已经知道细胞——信号传导途径。「我们知道正常细胞中的基因周期,现在我们要问,在肿瘤细胞中究竟是那部分出问题了?令人惊讶的是,我们成功了。」 Stuart说。
Lee的研究小组在其研究中使用了PARADIGM计算分析方法。事实证明,这种方法对于揭示绝经前妇女雌激素受体的阳性乳腺癌功不可没。该方法表明,虽然单个分子会有异常变化,但是它们通常都会在一组特定的、传递信号给整合素的通路中发生——涉及肿瘤相关的血管形成的蛋白质。
具有雌激素受体阳性乳腺癌的绝经前妇女的肿瘤中的整合素非常重要,者也表明这些分子可以是治疗靶标。「这些分子中有整联蛋白抑制剂。」 Lee说。并且有些分子已经经过临床测试。
从知识到应用
随着大数据研究人员通过大量的肿瘤数据库寻找突变模式时,他们也会在其中增加新的类别的乳腺癌。2012年,两大数据库公布了自己的关于数据驱动的方法研究乳腺癌基因的论文。TCGA网络,这个由数十个美国和欧洲的科研机构联合起来的团体,基于基因异常和表观遗传异常想出了乳腺肿瘤的四项总体分组基。他们发现只有不到10%的样品中有三种基因发生了变异,表明稀有突变是乳腺癌类型的一个重要部分。METABRIC,一个英国和加拿大的机构联盟,将基因数据(基因表达的数目和基因表达变异)与长期的临床结果相结合,将肿瘤分为十个大类。通过与临床数据相结合,这种新的分组可能使肿瘤学家做出更好的患者预防和治疗决策。
「我们仍然在完善我们的研究方法。」剑桥研究院英国癌症研究中心生物统计学家Oscar Rueda说,该机构同时也是METABRIC研究机构联盟的一部分。他们正在对研究中的2000个样品进行测序。Rueda说,该研究希望发现基因突变的诱因,这是癌症早期非常重要的一部分。「关于细胞如何变成癌细胞的理论就有数百种。」
大数据方法也许最终会发现一些之前被忽略的细胞途径。西奈山伊坎医学院的Avi Ma’ayan正致力于细胞途径的数据库的建设,希望可以为将来的研究目标提供一种资源。他的研究得益于美国国家研究院基于集成网络细胞特征的卫生图书馆(LINCS)的鼎力支持。LINCS可以使用研究院(例如麻省理工学院Broad研究所)产生的数据。Broad研究院的高产量实验室在十个不同的细胞系中测试一系列的药物,从而研究药物和细胞活动之间的相互作用。这些药物包括实验样品以及经过监管机构批准的药物。
「你会获得细胞的行为特征,这些特征有助于新型药物的研究。」 Ma’ayan说。如果临床研究人员想要关闭一个特定细胞转换成癌症的路径,他们可以使用Ma’ayan的数据库来搜索具有这个功能的药物。
临床应用
接下来就是将这些关于可操作的突变的知识运用到病人护理方面。研究医院会收集关于病人护理的数据,从而进一步增加知识储备。例如,在MD安德森癌症中心,新的癌症患者会对照已知癌症基因做检测。「这不是对整个基因组,而是一组可操作的突变的200个基因。随着研究知识的增加,这样的小组也会增加。去年原始的200个基因已经扩展到了300个。」 Navin说。
Navin的专业是单细胞测序,他可以研究血液中的肿瘤细胞。在一个样品中只能收集10到20个细胞。「之前的研究方法对于这样小数量的细胞并不管用。」 单细胞测试方法使得病人可以通过用非侵入性测试(例如测试血液样品)的方法来监测治疗过程。肿瘤专家便可以通过检查肿瘤细胞来判断其是否响应治疗或者出现了阻力。
大数据可以和I-SPY的临床测试结合,I-SPY是一种实验性乳腺癌药物的临床试验。「我们正在从病人身上实时收集数据。」加州大学旧金山分校分子肿瘤学家Laura van’t Veer说。
病人在进行诊断的时候,可以通过其肿瘤特征来将其划归为8种预先定义的肿瘤类型之一。然后病人将接受标准的治疗方法,并且使用实验性的靶向药物,同时van’t Veer及其同时则监测究竟肿瘤会响应哪种治疗方式。这样做的目的是评估改善响应靶向治疗的生物标志物。「通过标准治疗方法,我们发现30-35%的病人症状完全缓解,而在我们八种类型的治疗方法,这个比例提升到了50-60%。」
前进道路上仍然还有许多挑战。单个肿瘤也可能随着时间的改变而发生突变,从而使得单个肿瘤也具有多样性。但是Ma’ayan仍然保持乐观。「通过在这个问题上投入更多的金钱和精力,我们就能获得更多的数据。有了更好的坚定的决心,我们可以进一步提高对这个过程的理解。尽管现在感觉前路漫漫,但这并不是一个无限的过程。」
本文转自d1net(转载)