“干湿结合”套路模式成长营课程笔记

本文链接：https://blog.csdn.net/adreammaker/article/details/123838966

文章目录

课程大纲
第1节课细述了生信研究分析的文章特点（结构特征和具体流程）；
第2节课则讲解了生信研究分析的要素结构（恒量变量参数体系）以及四大分析模块（挑、圈、联、靠）。
ceRNA纯生信套路
circRNA
CircRNA数据库

成长营是解螺旋最新推出的一种专项特训学习营，主要针对一种研究套路或一种科研核心技能，进行2周的综合课程学习，通过带教督学结合知识点拓展的模式，高效准确地领悟技能&套路。在学习课程的同时会安排相应的作业练习和学习总结，帮助你更好地理解所学内容，14天从入门到精通一项科研技能。
生信季成长营包括如下几个：在这里插入图片描述

在这里插入图片描述

课程大纲

在这里插入图片描述

现阶段 “生信分析+实验验证”干湿结合的生信分析文章依旧有发表高分杂志的可能，因为两者相结合的文章总能令人刮目相看，文章命运自然不同。但考虑到临床医生平日工作繁忙，能做的实验有限，其实，以生信研究为主，湿实验为辅的研究套路才是医生们快速发表SCI文章的绿色通道。

而本研究套路课程之所以选择将circRNA作为主变量，是因为它不易受到RNA外切酶的影响，不易降解，表达更稳定，且具有组织表达特异性，在成为癌症诊断、预后以及治疗靶标的生物标志物的开发和应用方面具有明显优势。因此，近年来circRNA充当ceRNA机制中miRNA海绵的研究也是相当火热。

为了拆解肿瘤circRNA ceRNA机制研究的一般性套路，本套路课以一篇6分左右的文献为教学案例，对该文献的课题思路设计和文章数据进行全面剖析解读，并总结归纳了该领域研究中的科研常识，从而提炼出同一类型研究的套路框架，为后续进行相同方向研究的零基础科研者点亮一盏指路明灯。

另外，本研究套路课程还整理出该领域中接收类似研究的不同分区的期刊杂志，同时以模块化写作方式拆解文章，讲解投稿整理文章各部分常用句式，提供相应写作模板，帮助大家快速搞定SCI写作。

本期训练营共14天，每天晚上18:00发布学习任务，我们每天会安排1-2节课的学习，每课时在30分钟左右，干货多多；每节课还有对应的课后练习题，大家在看完课后记得做题检验下学习效果哦！学习过程中建议大家备好纸笔，随手做笔记哟~ 学完把笔记或者练习题截图发到群里打卡，我们也会在群里每天提醒大家学习打卡的！
在这里插入图片描述
本期成长营是作为首发福利，最后一期免费开放的，所以小伙伴们先点击链接领取优惠券-之后跳转到训练营页面0元购买-激活课程。（能够看到课程视频即为激活课程）激活过程中遇到问题可以私聊我解决哦~

我们的视频课程在电脑端、手机端均可观看，可以根据你的习惯选择看课方式哦！
放上直达链接~
戳链接直达：https://m.helixlife.cn/periods/bbf7730b-335d-4c6a-9764-7a8d71f6ac60/learn

今天的学习任务为两节课：

在正式剖析范例文章之前，我们先通过这两节课的课程内容，跟随讲师的脚步，回顾并复习一下酸菜老师所讲解的生信文章研究的顶级思维构成~

第1节课细述了生信研究分析的文章特点（结构特征和具体流程）；

通过第1节课程学习，我们应该知晓，与基础研究不同，网状式结构的生信文章研究讲究一个“快”字，发表文章速度快、知识更新迭代也快，所以生信分析技能也需实时更新。
在这里插入图片描述

可以用不同的数据集分别作为训练集和验证集，这样结论更可靠。

第2节课则讲解了生信研究分析的要素结构（恒量变量参数体系）以及四大分析模块（挑、圈、联、靠）。

在这里插入图片描述

表达差异：是获取不同组别（例如：癌和癌旁）之间，有差异的分子列表。表达有差异是功能有意义的前提。

功能聚类：是根据这些分子取推断不同组别之间的功能差异。

由于目前对大多数编码基因（ceRNA)的研究较多，我们可以根据文献整理出基因和表型的对应关系；比如在收集了增值相关的基因PCNA、Ki-67后，还可以根据各个表型或通路整理出不同的分子集合。这些分子集合就是参考基因集。然后将差异表达分子列表和各个参考基因集做比对，就可以知道分子主要富集在那些表型或者通路中，从而推断癌和癌旁组织之间这些功能是有差异的。

交互关系：是将这些分子，根据他们之间的关系构建成网络，他们之间的关系也是基于文献报道，这样就可以知道在这些分子中，A分子与哪些分子之间有关联，B分子与哪些分子之间有关联。有关联的分子之间用线段进行连接。这样一个复杂的交互网络就构建出来了。而且在这个网络中，我们可以找到交际花一般的分子。也就是整个交互网络中的枢纽，通常可以认为这样的枢纽分子在疾病中更有意义。

临床意义：是指选定的分子和临床参数是否相关。比如肿瘤中的TNM分期，预后信息等等。研究的目的是为了服务于临床，如果我们筛选得到的分子跟临床参数息息相关，那么这样的分子就有临床转化的潜在价值。

注意：表达差异中，样本的分组并不局限于癌和癌旁边，关注什么问题，就要按照涉及到的因素对样本分组。
比如我想知道哪些基因可能导致肿瘤转移，这时就应该根据转移情况对样本进行分组，这样差异分析得到的分子应该都是跟转移表型相关的。

或者我想知道A分子在疾病中的作用，那就可以根据该分子的表达量的中位数进行分组，高于的是高表达组，低于的是低表达组，这样进行差异分析，得到的差异分子就应该都是跟A分子相关的。就可以推测他们和A分子之间有调控关系。但是究竟谁能调控谁，生信分析是无法解决这个问题的。

这一步还是依赖于实验验证，关于分组，我说了这么多，就是为了让大家理解下面这句话。无论是生信还是基础研究，分组就是我们解决的问题的第一步，生新分析给样本做分组，就类似于基础实验中给主变量分子制作过表达和敲减的操作工具。大家想一想，我想研究A分子，做实验的话可以有过表达组和对照组。或者是敲减组和对照组。那么在生信分析中，之前所说的高表达组是不是相当于实验中的过表达组呢，同理，低表达组也对应了实验中的敲减组。这样的话，高低表达两组带来的各种差异应该都是由A分子导致的。从而提示了A分子的作用。

课程中曾提到生信就分析策略包含了四大模块，挑圈联靠，分别对应着表达差异、功能富集、交互网络和临床意义，各模块之间的自由组合，就形成了不同的分析策略。即便是相同的疾病和问题，只要我们变换不同的数据特征和分析策略，就可以组合出不同的文章。
这也就意味着，生信研究信其实解决了四方面的筛选和预测，即筛关键分子，筛关键机制，筛互作分子，预测临床意义，也分别对应着挑、圈、联、靠这四大模块，而这四个模块或有省略或者顺序略有调整和不同模块间进行组合也都是可以的。
挑，表达差异。正常样本与疾病样本之间的差异，疾病不同演进阶段的差异，癌旁组织与癌组织之间的差异，不同平台技术样本来源检测方法之间的差异。表达有差异，是研究有意义的前提。通过这一步挑，可以筛选出实验组与对照组之间差异表达的关键基因，或者缩小范围找Hub gene，预测潜在的biomarker。
圈，聚类分析。一个是对数据集样本质量的检验，就是检验所有研究的样本混在一起之后，不同分组之间的样本能否区别开，同一分组的样本能否很好聚在一起，是不是不同的数据集混在一起也能区分开不同的分组，有没把不同分组的样本标记混淆，以此来检验批间差的去除，或者数据集的样本的质量情况。一个是表达和功能的聚类，就是将获得的基因列表或者基因表达矩阵，把具有相似功能的基因放到一起，和生物学表型关联起来，对生物学功能/相关的通路机制进行预测分析。
联，交互网络。交互网络有两大类，其一是化合物与分子的调控关系，可以预测药物小分子的作用靶点、耐药靶标；也可以反过来由靶标分子反向预测可能作用的药物小分子；一类是分子与分子之间的间接直接调控关系，可以预测蛋白-DNA转录因子的DNA结合位点，可以预测蛋白与蛋白之间的共表达网络、邻近基因网络、相互作用网络，可以预测RNA与RNA/DNA/蛋白的直接或者间接的相互作用。
靠，临床意义。临床意义包括三表一图的统计性分析，也包括构建临床预测模型的预测性分析。三表一图包括，基线资料表、单因素、多因素、生存曲线图。临床预测分析主要是对于预后、诊断、复发三方面的预测分析。
四个分析模块中，表达差异主要涉及是高通量筛选技术，最常见的技术平台有三个：芯片、测序、质谱，芯片和测序可以解决DNA的检测，而质谱可以解决蛋白和代谢物的检测，就目前而言，海量的数据都集中在DNA和RNA水平。
借由三个平台获取海量数据后，在正式筛选数据需要进行数据清洗。这是因为不同平台获得的数据格式不统一，需要转换处理，需要检查数据一致性，处理掉无效值和缺失值，然后再按照高表达低表达挨个排个序得到列表，就可以等待进入后续分析工序了
而后续的功能聚类分析主要涵盖了KEGG/GO分析、GSEA富集分析等内容，这些分析的具体操作方法，解螺旋的单元课《KEGG信号通路数据库使用教程》、《GSEA软件使用教程》、《GEO数据库使用教程》已经了进行详细讲解，请学员们课后自行学习。
此后还需要通过交互网络找到与主变量联系最为紧密的分子进行机制的深挖，再然后对主变量分子进行临床相关分析。这两模块涉及的PPI网络和三表一图的绘制，解螺旋也有单元课提供相关教程——《STRING数据库使用教程》、《临床相关性研究经典分析》，这里就不再赘述了，请学员们课后自行学习。

ceRNA纯生信套路

通过前两节课的学习，可以帮助大家构建生信知识体系的顶层架构，接下来第3节课主要是在细述了ceRNA的具体特征后，以挑圈联靠的的方式解析了一篇ceRNA研究的纯生信文章所需的数据组合模块，在捋清文章逻辑论证思路的同时，也总结归纳了ceRNA纯生信文章研究的增减策略，方便大家根据自身研究的实际情况对研究内容进行增减。

在这里插入图片描述
通过本节课我们可以知道ceRNA研究文章通常包括三个变量：主变量（mRNA/非编码RNA），miRNA和编码蛋白的功能基因。

在这里插入图片描述
主变量分子要原创、有创新性。编码基因与表型之间的关系最好是已知的，便于后续解释机制可以自圆其说，至于miRNA与表型之间的联系，如果原创可加分，反之能建立主变量和miRNA之间的关系也是可以的。
一般主变量与功能基因互为ceRNA，上调或下调主变量能够影响编码基因的表达，反过来也是一样。其次要验证主变量和编码基因确实是miRNA的靶基因。鉴于主变量往往在疾病中高表达，一般只做主变量的RNAi就可以的，过表达则可以省去不做。

在ceRNA中，miRNA通过和mRNA的3’UTR或非编码RNA(lncRNA/circRNA等)的miRNA结合位点（MRE）结合，从而调控蛋白翻译表达表达。因此在miRNA的量一定的情况下，某个非编码RNA越多，结合的miRNA也越多。与mRNA结合的miRNA就越少。miRNA的抑制作用被降低，这就意味值更多的mRNA被释放出来，进而编码蛋白发挥功能。这种非编码RNA和mRNA同时竞争一条miRNA，也就是ce中的竞争性的含义，相当于decoy模式。

一个miRNA结合的靶基因可能有上百个，而mRAN的3 ‘UTR和非编码RNA上也有远远不止一个MRE，因此ceRNA不是少数分子的调节关系，涉及的分子有很多，这些调控关系，形成了一个网状结构。

在这里插入图片描述
将差异表达的mRNA进行功能富集分析，

在这里插入图片描述

circRNA中的miRNA应答元件，在各种肿瘤中都可以结合并抑制miRNA的活性，调节下游靶基因的表达。

circRNA

在这里插入图片描述

circRNA具有相比于线性RNA具有更加丰富的生物学机制，目前的研究中广泛涉及的circRNA包括图中所示的6种：

在这里插入图片描述
一种是最为常见的circRNA spone miRNA的作用机制，由于circRNA上存在miRNA识别的位点，因此能够吸收miRNA，使其不能与靶向的mRNA，导致mRNA水平的上调（因为miRNA对mRNA进行抑制），这些研究很多发表在《molecular cancer》上，大家可以多看一下相关的研究；
第二种是circRNA sponge RBP的作用机制，RBP广泛参与RNA的转录调控以及转录后调控，因此circRNA通过与RBP结合间接调控这些重要的生命过程。
第三种是circRNA作为蛋白质- RNA复合体成员，发挥功能。
第四种：是circRNA作为蛋白质支架，介导蛋白质-蛋白质复合体的组装，这种作用机制和上一种的区别在于circRNA仅发挥支架作用。其本身不一定参与这个蛋白质复合体发挥功能的过程。
第五种：能够招募一些反式调控因子，调控基因的转录，
第六种：最近兴起的circRNA能够翻译出一些小肽段，作为一种非经典的功能蛋白发挥作用。