实验不够，综合分析来凑

本文链接：https://blog.csdn.net/wangyiqi806643897/article/details/105266012

最近做完了一波RNAseq分析的实验，准备选题写论文了。还上一次做序列分析还是在五年前，做的De novo assemby，Sanger\Illumina\454的测序和分析，在课题组里认识了我老公并修成了正果，哈哈哈哈，一波回忆杀。一晃眼，现在几乎是Illumina、三代测序统领江湖的时代。

好了说说这两天读的《Developing an Integrated Genomic Profile for Cancer Patients with the Use of NGS Data》，好像是19年底发表的论文，通读一遍，精读两遍，不评价论文写的质量（虽然我觉得这论文比我老公写的差远了），仅分析论文本身。好了，我开始我的流水阵势了。

通篇概论，这篇文章主旨：慢性淋巴细胞白血病（CCL）Exome Sequencing (WES) and RNA Sequencing (RNAseq)结果的综合分析。所谓综合分析，其实是把分析的实验结果，结合病情，利用机器学习构造模型，得到综合结论。

创新点：就是现在数据很多，分析数据的很多，数据得到的结果也很多，没人把它们综合，我把它综合了，还根据feature（病情）得到不同病情或患者下的综合资料（ integrated profile）。

其实作者还是做了很多工作的，至少把别人的pipline,python的数据模型都跑了一遍最后汇总了结果，最后还做了N折的交叉验证。但是，实验过程他真的是一笔带过，也没有supplimentary files,结果罗列图表很多，感觉要是好好写写应该可以发更高分的，可能真的是写作习惯不同吧，我要是写成这样，会被老板骂惨的，随手截个图你们感受下：

实验过程：

1、数据：

从NCBI下载了现成的早期白血病数据， Whole Exome sequence(WES)数据、RNAseq的数据，fastq格式，分别有两组，因为作者是要研究疾病与数据分析的关系，所以分为病情Aggressive和stable组。RNAseq：EGR2 gene mutated （Aggressive）和EGR2 gene unmutated（stable），WES： EGR2 mutated （stable）and EGR2 unmutated（Aggressive）；

2、运算平台：

AUTH高性能计算集群，穷乡僻壤的小攻城狮表示从没接触过，反正这个算法耗费资源还是很大的，还是不要在自己电脑上尝试了，去实验室的super computer上吧（我曾经有次在家里的Mac上跑数据，Mac跑了十几个小时后直接自己黑屏重启自杀了）；

3、WES分析：

说实话，小白的我是真的没做过，BUT，估计作者也没有一步一步地跑，直接上的现成工具Seqmule pipeline，生成结果就行，因为人家主旨是做结果的综合分析嘛。但是用工具做分析的实验设计也是花了点心思的，用了pipline的俩不同的configuration：a)正常vs.癌症组织分析，具体人家的pipline都有工具和选项给你用啦；b)癌症组织 vs.参考基因组（这个是pipline的默认配置）；

SNP也做了筛选，先是，对每个variant进行基因注释，把variants分为{synonymous, non-synonymous, other}；然后，运用filter-based approach,variant赋值MAF（Minor Allele Frequency），用来区分infrequent的variants；最后，还是运用另一个filter based approach，用的是dbNSFP score,来把variant分为{tolerated, deleterious}；

归根结底，就是跑结果，筛选结果，分析结果，得到突变信息（mutations detected in the samples that needs to be further analyzed）；然后他一笔带过说这些数据可以用Python的Pandas 和 Matplotlib包来突出这些结果的重要性。

4、RNAseq分析：

还是用别人写好的Tuxedo pipeline，具体这个pipeline用了啥，自行谷歌吧；但作者用这个pipline主要是为了得到两个组的差异表达分析和所有病人的表达信息；

其他的分析作者也就是说自己用了R包来分析这些结果（统计和降维），其中还自己写了python来进行feature selection和training模型。反正就把可视化结果贴出来了，具体自己用了什么R包，写了啥python，不知道，不知道，不知道；

5、预测分析：

重复，作者预测分析的目的是：预测疾病的结果，根据上述的分析，疾病在以后的病人身上是stable还是aggressive；

这个作者写的真的特别特别轻描淡写，可能是用了别人的包没啥好说的吧，用的是scikit-learn Python Library，文献可以自己去读：Scikit-learn: Machine Learning in Python，具体用了啥算法作者也没说明白，倒是这个包，常用的机器学习算法都有（莫非作者每个都用了一遍？还是用了部分？这真的是一个超级大的工作量，怪不得要动用集群，作者说他是用了留一法Leave-one-subject-out交叉验证选定每种实验的分类器，每个分类器都要随机选取数据跑100次）。

模型的feature作者是交代了的，对RNAseq的feature选择是选了20个差异表达基因作为feature，对WES是上一步选的non-synonymous, heterozygous, deleterious 然后 MAF>0.5的SNP，然后计算每个病人的每个基因检索这些SNP，那些基因就作为feature咯。

6、综合结果：

恩，这也到了大头了，但作者写的还是。。。额。。。。很简单，反正是很简单，就是一句话带过。做了两种综合，一种基因水平一种染色体水平。

基因水平上，就是探索基因表达和突变频率之间的相关关系，然后在基因水平上对结果进行了综合，综合的方法呢，就用了一句话，给了一个散点图，就没了。原话po出：The information used is the gene significance and expression, computed via RNASeq Analysis, and variant frequency per gene, computed via WES analysis.

染色体水平上，又用了一句话和一个图，做了SNP的结果综合。反正就是一句话：通过RNAseq与WES分析在每个染色体中检测到的SNP数量。还特地说，其他文献也是用RNAseq结合WES分析来检测癌症SNP更准确更详细哟。

有没有觉得，你还是不知道那种情况下可以预测病症结果是不是？汇总一下作者的结果，让你自己感受他做了啥。。。

第一个板块：提供换这个人信息，性别，治疗信息；第二个板块：提供RNA数据分析汇总；第三个板块：WES检测病人所有SNPs/Indels分布；第四个板块：预测患者这些结果是不是aggressiveness；最后，上一段所述的在基因和染色体水平上的综合RNAseq和WES分析的介绍。

其实个人觉得，这个作者还是做了很多实验的，但是写的不算好，不需要深度，实验重现，有条件有实力的话，可以试试，做实验参考非常推荐。