实验不够,综合分析来凑

最近做完了一波RNAseq分析的实验,准备选题写论文了。还上一次做序列分析还是在五年前,做的De novo assemby,Sanger\Illumina\454的测序和分析,在课题组里认识了我老公并修成了正果,哈哈哈哈,一波回忆杀。一晃眼,现在几乎是Illumina、三代测序统领江湖的时代。

好了说说这两天读的《Developing an Integrated Genomic Profile for Cancer Patients with the Use of NGS Data》,好像是19年底发表的论文,通读一遍,精读两遍,不评价论文写的质量(虽然我觉得这论文比我老公写的差远了),仅分析论文本身。好了,我开始我的流水阵势了。

通篇概论,这篇文章主旨:慢性淋巴细胞白血病(CCL)Exome Sequencing (WES) and RNA Sequencing (RNAseq)结果的综合分析。所谓综合分析,其实是把分析的实验结果,结合病情,利用机器学习构造模型,得到综合结论。

创新点:就是现在数据很多,分析数据的很多,数据得到的结果也很多,没人把它们综合,我把它综合了,还根据feature(病情)得到不同病情或患者下的综合资料( integrated profile)。

其实作者还是做了很多工作的,至少把别人的pipline,python的数据模型都跑了一遍最后汇总了结果,最后还做了N折的交叉验证。但是,实验过程他真的是一笔带过,也没有supplimentary files,结果罗列图表很多,感觉要是好好写写应该可以发更高分的,可能真的是写作习惯不同吧,我要是写成这样,会被老板骂惨的,随手截个图你们感受下:

实验过程:

1、数据:

从NCBI下载了现成的早期白血病数据, Whole Exome sequence(WES)数据、RNAseq的数据,fastq格式,分别有两组,因为作者是要研究疾病与数据分析的关系,所以分为病情Aggressive和stable组。RNAseq:EGR2 gene mutated (Aggressive)和EGR2 gene unmutated(stable),WES: EGR2 mutated (stable)and EGR2  unmutated(Aggressive) ;

2、 运算平台:

AUTH高性能计算集群,穷乡僻壤的小攻城狮表示从没接触过,反正这个算法耗费资源还是很大的,还是不要在自己电脑上尝试了,去实验室的super computer上吧(我曾经有次在家里的Mac上跑数据,Mac跑了十几个小时后直接自己黑屏重启自杀了);

3、WES分析:

说实话,小白的我是真的没做过,BUT,估计作者也没有一步一步地跑,直接上的现成工具Seqmule pipeline,生成结果就行,因为人家主旨是做结果的综合分析嘛。但是用工具做分析的实验设计也是花了点心思的,用了pipline的俩不同的configuration:a)正常vs.癌症组织分析,具体人家的pipline都有工具和选项给你用啦;b)癌症组织 vs.参考基因组(这个是pipline的默认配置);

SNP也做了筛选,先是,对每个variant进行基因注释,把variants分为{synonymous, non-synonymous, other};然后,运用filter-based approach,variant赋值MAF(Minor Allele Frequency),用来区分infrequent的variants;最后,还是运用另一个filter based approach,用的是dbNSFP score,来把variant分为{tolerated, deleterious};

归根结底,就是跑结果,筛选结果,分析结果,得到突变信息(mutations detected in the samples that needs to be further analyzed);然后他一笔带过说这些数据可以用Python的Pandas 和 Matplotlib包来突出这些结果的重要性。

4、RNAseq分析:

还是用别人写好的Tuxedo pipeline,具体这个pipeline用了啥,自行谷歌吧;但作者用这个pipline主要是为了得到两个组的差异表达分析和所有病人的表达信息;

其他的分析作者也就是说自己用了R包来分析这些结果(统计和降维),其中还自己写了python来进行feature selection和training模型。反正就把可视化结果贴出来了,具体自己用了什么R包,写了啥python,不知道,不知道,不知道;

5、预测分析:

重复,作者预测分析的目的是:预测疾病的结果,根据上述的分析,疾病在以后的病人身上是stable还是aggressive;

这个作者写的真的特别特别轻描淡写,可能是用了别人的包没啥好说的吧,用的是scikit-learn Python Library,文献可以自己去读:Scikit-learn: Machine Learning in Python,具体用了啥算法作者也没说明白,倒是这个包,常用的机器学习算法都有(莫非作者每个都用了一遍?还是用了部分?这真的是一个超级大的工作量,怪不得要动用集群,作者说他是用了留一法Leave-one-subject-out交叉验证选定每种实验的分类器,每个分类器都要随机选取数据跑100次)。

模型的feature作者是交代了的,对RNAseq的feature选择是选了20个差异表达基因作为feature,对WES是上一步选的non-synonymous, heterozygous, deleterious 然后 MAF>0.5的SNP,然后计算每个病人的每个基因检索这些SNP,那些基因就作为feature咯。

6、综合结果:

恩,这也到了大头了,但作者写的还是。。。额。。。。很简单,反正是很简单,就是一句话带过。做了两种综合,一种基因水平一种染色体水平。

基因水平上,就是探索基因表达和突变频率之间的相关关系,然后在基因水平上对结果进行了综合,综合的方法呢,就用了一句话,给了一个散点图,就没了。原话po出:The information used is the gene significance and expression, computed via RNASeq Analysis, and variant frequency per gene, computed via WES analysis.

染色体水平上,又用了一句话和一个图,做了SNP的结果综合。反正就是一句话:通过RNAseq与WES分析在每个染色体中检测到的SNP数量。还特地说,其他文献也是用RNAseq结合WES分析来检测癌症SNP更准确更详细哟。

有没有觉得,你还是不知道那种情况下可以预测病症结果是不是?汇总一下作者的结果,让你自己感受他做了啥。。。

第一个板块:提供换这个人信息,性别,治疗信息;第二个板块:提供RNA数据分析汇总;第三个板块:WES检测病人所有SNPs/Indels分布;第四个板块:预测患者这些结果是不是aggressiveness;最后,上一段所述的在基因和染色体水平上的综合RNAseq和WES分析的介绍。

其实个人觉得,这个作者还是做了很多实验的,但是写的不算好,不需要深度,实验重现,有条件有实力的话,可以试试,做实验参考非常推荐。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值