跨不同导向序列的Cas9结合和切割的定量描绘了靶接合的前景

RNA引导的核酸酶Cas9为通过靶向DNA切割扰乱基因组和通过靶向DNA结合扰乱调节体提供了强有力的方法,但有限的生化数据阻碍了对不同引导序列的靶向结合和切割的序列扰乱进行定量建模的努力。我们提出了可扩展的、基于测序的高通量过滤器结合和切割平台,然后对35,047个靶内外DNA序列进行了62,444次定量结合和切割分析,这些序列跨越了90个装载了不同导向RNA的Cas9核糖核蛋白(RNPs)。我们观察到结合和切割效率以及特异性在不同的RNPs之间有很大的差异;正规研究的指南通常具有非常高的特异性;目标周围的序列环境调节Cas9开启速率;Cas9 RNPs可能会隔离非生产状态中有助于“校对”能力的目标。最后,我们将我们的发现提取到一个可解释的生物物理模型中,该模型预测不同靶序列扰动的结合和切割的变化。

 

化脓性链球菌(Spy) Cas9已被广泛用作扰乱人类细胞中基因表达和蛋白质水平的平台().在这种ⅱ型CRISPR系统中,CRISPR相关蛋白Cas9在与靶序列互补的CRISPR RNA (crRNA)的指导下,对双链DNA进行靶向搜索和切割。天然的CRISPR-Cas9细菌系统也被设计成与DNA结合,而不像催化失活的Cas9 (dCas9)那样诱导切割。dCas9已被证明是调节基因表达的强大平台,特别是当其与效应结构域融合时,允许干扰特定的基因组基因座(2).

理想的基因编辑或调节工具需要高灵敏度(即,在靶位点结合或切割的高概率)和高特异性(即,在非靶位点结合或切割的低概率) (3,).因为涉及目标搜索和结合的生物物理过程必然是这种敏感性和特异性的基础,所以它们一直是广泛研究的主题。这项工作揭示了Cas9核糖核蛋白(RNP)首先与NGG原间隔基相邻基序(PAM)结合,然后与8-12个邻接PAM的靶核苷酸杂交,称为“种子”区。该种子区域内的错配抑制了稳定的RNP:靶复合物的形成,而位于该区域远端的错配减少了RNP:靶复合物的寿命(5).在这项工作的基础上,结合从Cas9结构表征中获得的见解(68),其他人已经描述了脱氧核糖核酸解链和随后的构象变化是如何在结合后控制负责催化切割的结构域(HNH和鲁维)的活性的(911).最后,最近的工作表明,Cas9 RNP:目标相互作用沿着多条路径进行,其中一些可能通过或终止于非生产状态,限制Cas9活动(10,12,13).

因此,虽然规范Cas9结合的步骤是已知的,但指导序列之间的序列依赖性功效和对单指导RNA (sgRNA)的序列依赖性敏感性的基本原理:给定指导序列的靶错配尚未得到全面解决。大多数生物物理研究测量了相对较少的RNP:靶对,虽然最近的工作扩展了每个指南的非靶结合测量的数量,但所描述的sgRNAs的总数仍然有限(14,15).此外,即使是用于测量DNA-蛋白质相互作用的可扩展技术,例如HiTS-FLIP(16),HT-SELEX(17),Bind-n-seq(18),BET-seq(19),以及BunDLE-seq(20),通常具有有限的动力学分辨率,并且这些方法中的大多数不适于测量瞬时的或低亲和力的相互作用,使非靶活性的综合推断复杂化。许多指南和许多非目标地点缺乏多样的生物物理数据,这使得模拟Cas9非目标活动的途径很少(21,22).

为了以定量和可扩展的方式测量Cas9结合,我们开发了一种大规模并行的硝酸纤维素过滤器结合分析,用基于测序的读数代替放射自显影,从而能够在单个实验中无标记地测量dCas9与数千个非靶的RNP结合动力学(15).在这里,我们进一步优化和并行化了这种过滤器结合技术,并为90个不同的sgRNAs生成了超过45,000个目标内外DNA序列的结合和切割数据。通过这样做,我们将可公开获得的非目标结合测量的数量增加了一倍多。我们的数据强调了当装载不同的sgrna时,RNP生物化学行为的多样性:一些sgrna是高度特异性的,当错配以探测的浓度存在时,表现出结合的巨大变化,而其他的对错配不太敏感。我们证明了靶序列之外的上下文序列和PAM可以显著调节RNP关联率,这与Cas9在细胞中的靶向功效相关。最后,我们开发了一个预测性生物物理模型,用于非靶位点的Cas9结合和切割。

结果

大规模并行过滤器绑定能够对Cas9绑定进行可扩展的定量测量

我们首先选择了90个gRNA序列,并为每个指南设计了一个包含大约600个目标的匹配文库(一个“子文库”)。gRNAs是从各种来源收集的,包括遗传筛选、Cas9非靶筛选和表征Cas9生物化学的努力。还包括精选序列的序列转换。序列转换包括获取gRNA序列的互补、反向或反向互补部分,以便在核苷酸组成匹配的gRNA序列之间进行直接比较。每个子文库包含所有单错配的DNA靶标;66个连续的双重错配;10个不连续的双重错配;全单RNA:DNA凸起加精选双、三凸起;230个连续不匹配系列,包括从开始位置到结束位置的rA:dA、rC:dC、rG:dG和rU:dT不匹配;和所有子库共有的12个固定序列。总共设计了91个子文库的54,349个靶标(包括λ1 sgRNA的重复子文库)(表S1)。对于每个亚文库,制备相应的sgRNA并装载到dCas9中,同时使用聚合酶链反应(PCR)用16个不同的时间点引物对DNA进行分裂和条形码标记图1A)来量化结合时间过程(参见材料和方法)。

图1 通过大规模并行过滤器结合对dCas9结合进行动力学分析。

A)实验概述:在寡核苷酸阵列上合成设计为90个sgRNAs的Cas9靶。91个不同的亚文库引物分别扩增每个sgRNA的目标。在第二次聚合酶链反应中,每个文库都带有正向和反向条形码。过滤器绑定被执行,并且所有时间点和子库被汇集用于排序。(B)三视图:(1)一个板适配器位于96孔板真空歧管上;(2)样品通过硝酸纤维素膜并收集在深96孔板中;(3)样品通过硝酸纤维素,将结合的DNA保留在膜中。(C)λ1非靶序列的关联曲线示例。黄色条表示90%的置信区间。虚线表示完美的目标最终分数界限。(D)研究中包含的sgRNAs的总结。(E)跨两个子文库和sgRNA制剂结合的λ1靶的最终部分的再现性。粗灰线(左下角)表示检测极限。(F)比较“规则集2”评分、CRISPRia和通过基因筛选确定的有效与无效sgRNAs的鉴别率。(G)所有研究的sgRNA子文库的关联曲线摘要。(H)饼图展示了相对于其他已发表的Cas9非目标活动研究的数据规模。

 

接下来,我们设计了一个大规模并行的过滤器结合装置,允许在96孔板(图1B).作为这一工作流程的一部分,我们使用硝酸纤维素膜与结合蛋白质的DNA靶结合,然后收集滤液中未结合的DNA并测序,从而通过耗尽测量来量化结合。硝酸纤维素膜被放置在一个三维(3D)印刷的96叉适配器上,该适配器被设计成与96深的孔板相匹配。当亚库时间点的指定关联时间过去时,样品被施加到膜上,并通过真空过滤进行流通收集。实验结束时,将每口井的滤液汇集在一起并进行测序。相对于我们之前的协议(15),这种96孔设计所需的动手时间减少了70%,反应体积减少了90%,成本减少了85%。

来自测序数据的目标计数被拟合到一步关联模型(参见材料和方法),得到两个拟合参数:最终分数界限(f最后的)和观察到的速率(k观察(=Observation)).假设泊松噪声,构建每个时间点的置信区间。第一个时间点接近最后一个时间点的结合水平的目标只适合最终分数结合。此外,时间点置信区间与估计分数界限重叠为零的目标分别标记为低于我们的检测限的界限(参见材料和方法)。具有极端拟合率或最终分数界限的偏离目标被标记为不良拟合。一些目标不适合,通常是因为计数非常低,并被标记为丢失数据。

我们首先对所有91个亚文库进行了过滤结合关联实验,这些亚文库含有5纳米的dCas9 RNP和100微米的总DNA。总的来说,分数界限的拟合关联曲线通常落在所有时间点基于计数的置信区间内。对结果的检查显示了与以往针对dCas9靶向规则的工作一致的模式,包括5至10个碱基对(bp)的序列互补性,其包含足以在5 nM RNP结合的种子序列(图1C) (23,24).91个(13%)完美靶序列中有12个不能匹配,主要是因为结合水平低于检测阈值。对可检测结合活性的观察取决于精选序列的来源(图1D).一半的不合适的小核糖核酸含有17个或更多的鸟嘌呤/胞嘧啶碱基对,而13%的合适的小核糖核酸(P= 2 × 10−3二项式检验)。通过用核糖核酸折叠技术筛选sgRNA序列(25),另外四个展示了广泛的二级结构(图S1A),该二级结构可以干扰sgRNA发夹的折叠,这是已知的导致sgRNA性能差的特征(26).在79个具有有效的完美靶测量的sgRNAs中,与29,232个靶序列的结合被定量(图1G和表S2),比以前的努力明显更多的偏离目标的测量(图S1B和图1H).另有5983个目标被归类为结合低于我们的检测极限。其中,最不可能被量化的目标被设计成隐藏RNA凸起或一长串不匹配的碱基。为了量化实验可变性,我们为λ噬菌体基因组靶标λ1制备并分析了两个独立的子文库。我们发现拟合最终分数界限在各重复间非常一致(稀有= 0.98;图1E).

我们下一步的目标是将这些实验估计的参数与体内活性评分进行比较。我们首先将发表了CRISPR干扰(CRISPRi)活性的sgRNAs子集分类为有效或无效(21,22)并评估这两个类别在拟合生物物理参数方面是否存在差异。作为基线,我们为CRISPRi指南活动应用了两个已发布的预测算法:规则集2(3)和CRISPRia模型评分(表S3)(22).两种方法报告的有效评分均高于无效评分(图1F).然而,规则集2的得分差异不显著,而CRISPRia的得分符合统计学意义(P= 0.030,Wilcoxon秩和检验)。然后我们比较了我们量化的辨别能力k观察(=Observation)和f最后的。靶序列结合的最终分数大多超过50%,与指导疗效无关。相反,有效小核糖核酸的关联率明显快于无效小核糖核酸的关联率(P= 0.005,Wilcoxon秩和检验)。这一观察结果与最近的CRISPRi数据相一致,该数据证明了人类细胞中CRISPRi活性的表观关联率(27).

高通量动力学测量揭示了dCas9关联的不同序列景观

为了评估不同序列间dCas9关联的差异,我们首先观察了f最后的和k观察(=Observation)对于在靶的PAM近端具有一系列0至20个互补核苷酸的非靶序列(图2A).观察到的关联率跨越了30倍的完美目标范围,但对于给定的sgRNA,非目标关联率通常落在一个狭窄的范围内。大多数sgRNAs在最终结合部分(5 nM负载Cas9)显示很少或没有减少,直到互补性下降到12 bp以下。然而,当引入少至一个或两个末端错配时,一些sgRNAs显示出最终结合分数的大幅度降低。

图2 dCas9跨sgRNA非靶关联的多样性。

A)sgRNA的关联数据从零(PAM-近端)到完美(PAM-远端)互补。左侧显示了每个sgRNA的理想目标最终分数界限;中间显示了相对于理想目标的非目标结合;右侧显示了中心列中20个目标观察到的接通率分布。(B)四个sgRNAs的单错配数据。PAM突变通常接近或低于检测极限(星号),但许多种子错配(位置8至1)在动态范围内。(C)跨测量的sgRNAs收集的关联数据摘要。每个面板显示位于目标序列每个碱基对旁边的错配或凸起系列(不同大小)。在线上,结合被报告为完美目标结合水平的百分比。线下的横条总结了靶外结合低于检测的sgRNA的百分比。例如,大多数sgRNAs在种子(右下角)中表现出3-bp RNA凸起的未检测到的结合。

 

尽管λ1小核糖核酸已经成为特征化Cas9间谍小核糖核酸的首选小核糖核酸,但λ1 RNP的生物物理特性似乎是非典型的:f最后的和k观察(=Observation)因为λ1完美靶是我们描述的最大的sgRNAs之一。另外,f最后的对于λ1,对于互补性小于11 bp的非目标,RNP下降尤其急剧(图2A,子库S60)。大多数RNPs在互补降至8或9 bp之前,最终分数界限接近理想目标水平。λ1单错配靶的最终结合分数的下降也比大多数单错配靶更为严重。一些,如FANCF和EMX1位点3,受其靶中单一错配的干扰最小,除非错配破坏了规范PAM(图2B).

在所有的小核糖核酸中,大多数核糖核酸:脱氧核糖核酸的错配或膨胀对最终结合的分数影响很小(图2C和桌子S4)。单个RNA:DNA错配的影响特别小,通常只在种子的前七个位置可见。奇怪的是,多个末端错配的存在略微增加了许多sgRNAs结合的最终分数(图2A).最近的单分子研究表明,远侧错配降低了RNP:靶复合物在未缠绕状态下的分数,即使稳定结合(10,28),这可能对应于复合物稳定性或对硝化纤维素粘附性的差异。我们还观察到目标对扰动的敏感度(如图2A)与靶序列中包含的内部PAMs数量成反比(斯皮曼稀有= −0.31,P= 0.01).

我们注意到,在gRNA设计一个脱氧核糖核酸凸起:目标脱氧核糖核酸复合物干扰结合几乎和设计一个错配一样多。进一步的研究表明,与PAM近端核苷酸相同的DNA凸起比不匹配但位于相同位置的核苷酸凸起表现更好(P= 6 × 10−5,单侧Wilcoxon秩和检验)。这种脱氧核糖核酸插入偏好在末端位置(1、18和19)或中心位置(8至11)最为突出(图S2A和表S5)。无论是单独测试还是综合测试,这些区域之外的位置都不会表现出这种偏差。正如预期的那样,在1号位置设计的带有GGG PAM的靶的脱氧核糖核酸凸起(在该位置上维持一个规范的PAM)比带有HGG PAM的靶表现出更强的结合,在该位置上PAM的使用需要一个脱氧核糖核酸凸起。DNA靶碱基的缺失,预计会导致RNA凸起的形成,通常会导致最终靶结合量的更大减少。对于最接近PAM的5个碱基中的3个碱基的RNA凸起,大多数非靶标处于或低于检测极限。

在描述了与裸DNA的非靶结合后,我们接下来询问最终部分是否结合(f最后的)对于给定的sgRNA,可能是CRISPRi沉默能力的准确代理。我们首先使用最近发表的在错配位点的CRISPRi效力模型来评估错配靶的预测sgRNA CRISPRi活性(27)通过比较f最后的λ1子图书馆预测活动的测量。我们发现,绝大多数偏离目标的情况属于两类之一:低预测活动和低预测活动f最后的(%3C30%)或中度至高度(%3E10%)预测活性和高度f最后的(%3E60%)(图S2B),这意味着我们的生物物理测量通常与以前的建模工作一致(斯皮曼稀有= 0.711,P= 4 × 10−23);此外,在至少有50个子库的所有子库中f最后的测量,这两个指标之间的相关性是压倒性的正(69个测试中的65个正,平均斯皮尔曼相关为0.453;图S2C和表S6)。

裂解试验强调Cas9 RNPs的持续亚饱和活性

为了全面研究切割的序列依赖性,我们使用相同的条形码91子文库来收集在5 nM活性Spy Cas9(图3A).样品不是通过硝酸纤维素膜,而是用乙二胺四乙酸猝灭并热灭活。在测序过程中,裂解产物未被扩增。预编码的文库在没有聚合酶链反应扩增的情况下直接测序,所得计数用于确定观察到的切割速率和切割的最终部分(图3B).

图3 Cas9非靶文库的匹配切割数据。

A)Cas9切割实验包括在无聚合酶链反应测序文库的条形码文库中读出的时间点。(B)示例切割数据证明切割是互补碱基对的函数。(C)完美靶标的最终结合和切割水平分布广泛。(D)最终绑定级别(x轴)与最终卵裂水平(y轴),用于完美的目标序列。(E)5 nM Cas9缔合和裂解速率的联合分布。实线显示了双重变化(大致是检测的误差)。(F)相对于完美的靶切割水平,61个互补的0-20bp的sgRNAs的切割程度的总结。切割水平急剧下降,互补碱基少于17个。(G)目标长度上其他错配和凸起系列的切割程度总结。

 

值得注意的是,几乎所有完美的目标都没有达到100%的卵裂(图3C)甚至在孵化一个小时之后。而dCas9最终分数界限(f最后的)对于理想的靶,预期会显著低于100%,随着时间的推移,活性Cas9对模板的切割会在长孵育时间的限制下驱动反应完成。这种过饱和行为(29,30)可能是由于Cas9 RNP与靶结合,并以某种非零概率进入不能发生切割的状态并保护靶。一般来说,目标结合的部分超过裂解的部分(图3C),支持这样的假设。我们还观察到,在完美靶中,最终切割水平与最终结合水平弱相关(稀有= 0.342,P= 0.01;图3D),表明切割分数的一些变化可能源于最终结合水平的变化,但其余的变化可归因于其他序列依赖因素。

其他生物化学研究已经得出结论,切割相对于完美目标的结合速率(在5 nM Cas9)是快速的(12,13).如果切割相对于结合是快速的,那么我们期望观察到的结合和完美靶的切割速率之间有高度的一致性,因为Cas9结合应该是两种情况下的速率限制步骤。我们比较了观察到的完美靶的切割率和结合率,发现切割率仅与结合率适度相关(稀有= 0.465;图3E).对于许多向导,我们观察到,相对于关联,完美的目标切割更快。然而,相当一部分引导子诱导分裂的速度比它们结合的速度慢,这表明,对于某些引导子,分裂比Cas9结合的速度慢(5 nM)。

先前的研究表明,卵裂对不完全匹配比对结合更敏感(23)由于靶DNA切割所需的构象变化(,31,32).我们的数据与这些发现一致。在所有的sgRNAs中,超过85%具有17 bp互补性的靶显示出可检测的切割(图3F).额外的错配大大降低了被切割的靶的比例:38%具有16 bp互补性的靶显示切割低于检测阈值,62%具有15 bp互补性的靶也是如此(图3F).相比之下,对于大多数sgRNAs,我们只观察到含有15 bp互补性的靶结合的最终部分的微小变化(图2A).

靶外切割数据揭示了一个重要的趋势:大多数具有15或16 bp互补性的靶显示了中等水平的最终切割。换句话说,非靶切割率并不是简单地分布在0(切割能力不足)和1(切割能力不足)附近,而是广泛分布在(图3G).任何位置的单个错配或DNA凸起的存在对最终切割水平都有适度的影响。除了互补性小于17 bp的靶之外,在1-17位具有2或3个核苷酸(nt)的RNA凸起的靶,以及在任何位置具有四个或更多碱基对的连续错配的靶,尽管结合了高水平的最终级分,但显示出很少的切割(表S7)。

目标环境改变Cas9结合和裂解的速率

除了分析上述91个亚文库,我们还构建了两个“3聚体扫描文库”来测试侧翼序列对λ1和FANCF sgRNAs结合和切割的影响。这些文库被设计为包含所有可能的三聚体,跨越23-bp靶的5’和3’侧翼,延伸3 nt 5’(至23位)和6 nt 3’(至8位) (图4A).来自该文库的结合数据显示,只有靶位点3’端附近的序列变异才可靠地在dCas9的关联率中产生大的(%3E2倍)变化(图4B)且靶位点变异5’或NGG聚合酶链反应变异大于3 bp的靶的关联率很少与缺省侧翼序列的关联率不同(图4B).虽然加载FANCF sgRNA的Cas9的典型关联率约为λ1 RNP的四分之一,但相对于默认序列上下文,任意3’核苷酸对关联率的倍数变化的影响通常是一致的,这表明这些上下文特异性关联效应是指南无关的(稀有= 0.775;图4C和表S8)。与PAM最接近的碱基的同一性是控制切割速率的最重要特征,与先前报道的Cas9的NGGH基序一致(33).相对Cas9观察到的切割速率与相对关联速率相关(图S3和表S8),表明在5 nM Cas9,对于两种测试的sgRNAs,完美靶的切割相对于所有侧翼序列的关联是快速的。因此,虽然侧翼序列改变了稳定关联的速率,但该分析缺乏评估关联下游效应所需的时间分辨率。

图4 5′和3′序列变异对完全靶结合和切割的影响。

A)测试了位于两个完美靶标旁边的所有3聚体区块的5’和3’序列变异,以及NGG聚丙烯酰胺紧接下游的交替碱基和91个完美靶标的特定6聚体区块3’。(B)序列变异的影响:靶序列的5′端(23-21位)和靶序列的3′端(3-8位),按区域分开。(C)FANCF和λ1 sgRNAs 3聚体扫描5′和3′序列变异效应的比较。(D)预测5′和3′二核苷酸对关联率影响的LASSO二核苷酸模型的学习结果。(E)可视化从LASSO二核苷酸模型中选择的系数,标记高权重特征。(F)3’序列变异对91个RNPs间关联率的影响。在左面,位于NGG聚丙烯酰胺下游的核苷酸显示出影响了不良率。在中心面,显示了取自CRISPRi功效研究的延伸主题。在右边,气相色谱匹配的3’序列变异表明基序不仅仅是由气相色谱含量驱动的。

 

我们接下来试图模拟3’序列变异的6 bp对FANCF和λ1的相对关联率的影响。我们将这些语境效应的测量转换成二核苷酸特征矩阵(总共104个特征)和测量对数2折叠相对于每个指南的默认完美目标序列而变化。由LASSO回归拟合的加性模型捕获了大部分方差(交叉验证稀有2= 0.731,普通= 411;图4D).拟合参数表明,在最近的3’位置(NGGG-扩展的PAM)出现的G减缓了关联,在这种情况下减缓了27%(表S9)。然而,正如CRISPRi/a数据分析所表明的那样(22),由一个3’联体组成的一个扩展的聚丙烯酰胺进一步降低了结合率。当与额外的3′C(NGGCCC)结合时,该模型预测关联率下降两倍以上,是NGGG-扩展PAM预测的下降的两倍以上。

在91个子文库中也包括了上下文变异,以评估3’扩展PAMs对大量引导序列的关联率的影响的引导独立性。为了保持文库的紧密性,我们测试了五个交替的6-BP 3’序列和靶序列下游的所有三个1-bp替换对与一个完美靶序列关联的影响(图4A).我们选择了展示最多的6-bp区块(NGGCGGGAG)和最少(NGGGAATTT)徐研究中的CRISPRi活动等等。(21)以及补充序列,以测试关联偏好是否由序列块的垃圾收集内容驱动(图4A).

在所有指南的上下文变量中,对于在最近的3’碱基含有G的目标,关联率通常是最慢的,这与NGGH延伸的PAM基序一致,以实现最快速的关联(图4F和表S10)。当关联率中值下降到1.7倍时,插入不喜欢的序列产生了更大的(6倍)减少(P= 8 × 10−7对有利的,威尔科克森秩和检验)。这种影响不仅仅是由于气相色谱含量,因为气相色谱匹配的对照组显示出中值相对结合率的较小变化(减少2-4倍)。根据扫描3聚体数据训练的模型对这种不利的6聚体阻断观察到的出乎意料的大的关联率降低没有很好地预测,这表明相邻核苷酸之外的相互作用影响关联率。我们还观察到,在包含相同6-bp模块的完美目标中测量的关联率更具导向依赖性,并且显示出比单个碱基变化大得多的方差(1.8对0.74 log2折叠单元()图4F).这些观察表明,扩展的PAM偏好的方面是导向依赖的,并且虽然单个核苷酸变化具有小的影响,但是PAM下游的六个或更多个核苷酸变化可以导致不同sgRNAs的关联率的大的差异。

Cas9浓度-独立机制改变靶结合和切割选择性

我们对Cas9与90种不同γ-氨基丁酸在5纳米RNP的结合的初步调查证实了两个主要观点:绝大多数文库物种表现出中等水平的结合(通过大规模平行过滤结合测量)和切割。为了确定这些行为是否可以用简单的双态结合模型来描述,并量化非生产性结合状态的存在,我们选择了90个gRNAs中的12个在1.25和20纳米进行关联分析,在20纳米RNP进行切割分析。

在双态结合模型下,最终结合分数是三个独立参数的结果:蛋白质浓度,k在…上,和k离开。随着蛋白质浓度的增加,底物结合的最终分数也增加,直到达到100%饱和。然而,我们扩展的dCas9关联数据显示,许多Cas9靶(例如,λ1在4位的错配和ST3GAL5在4、8或10位的错配)没有饱和,而是在远低于100%的水平上占据平稳。此外,对于大多数sgRNA:靶对,观察到的最终切割水平与Cas9浓度无关(图S4A和表S11)。

为了解决这些差异,我们在拟合中添加了一个额外的参数来捕获这种“最大生产性结合”,以允许溶液中存在的DNA目标饱和度低于100%。因此,以这种方式拟合数据模拟了两种现象:与浓度相关的初始结合亲和力和与浓度无关的进入稳定的非匿名结合状态。通过联合拟合三个浓度,我们的数据大体上很好地拟合(图5A和表S12),这些拟合通常返回远低于100%的最大生产性结合参数。我们推测,这种亚饱和结合行为可能是由于硝酸纤维素介导的过滤器结合无法检测到的结合状态,如先前针对特定LacR变体所记录的(34).

图5 三种浓度下dCas9的联合符合性。

A)两个sgRNAs和相应的单个错配靶的联合拟合。虚线表示适合最大生产绑定。(B)最大生产性结合显示为所有12个联合装配文库的互补碱基数量的函数。大多数文库显示出大约10个碱基互补的转变。虚线以下的目标低于检测极限。WT,野生型;RC,反向补码序列;CM,补体序列;房车,反顺序。(C)最大生产约束的期望联合分布(x轴)和最终卵裂水平(y轴)在Cas9结合和/或分裂的四种不同选通可能性下。(D)观察到的最大生产结合的联合分布(x轴)和卵裂(y轴)用于联合装配库。随着sgRNA干扰的增加:目标匹配,目标落在对角线以下更远的地方。

 

在我们描述的12个基因重组蛋白中,仅在λ1 Cas9 RNP的非靶基因(以及从λ1序列转换得到的RNPs)中观察到初始结合亲和力的巨大差异(见材料和方法)(图S4B和表S13)。与其他测试序列不同,λ1衍生序列没有内部的、非匿名的PAMs。很可能RNP-聚丙烯酰胺相互作用可以支配对具有多个聚丙烯酰胺的靶观察到的初始结合亲和力。在这些情况下,大多数靶错配可能不会改变结合动力学,因为初始结合是由PAM相互作用而不是靶互补介导的。相反,我们的最大生产性结合测量似乎与Cas9靶的常规理解一致,Cas9靶具有对破坏敏感的8-10-BP种子区、具有很大弹性的8-11-BP PAM末端区和对大扰动敏感的中间区(图5B).

因为许多目标似乎不能达到100%的生产性结合,我们假设在结合过程中存在可以阻止Cas9 RNPs处于非生产状态的检查点。为了理解我们观察的含义,我们考虑了四种可能的模型,它们要么允许要么不允许非生产状态在生产性结合或切割之前捕获靶序列。我们在饱和蛋白质浓度([Ca9]% 3E % 3E)下探索这些模型的含义Kd) (图5C).在最简单的模型中,在没有门控的情况下,Cas9在单个步骤中与靶结合,并执行切割直至完成。在这种模式下,所有的目标序列将聚集在100%的生产性结合和切割。在第二种模式下,切割检查点的添加不可逆地停止或阻止了一些靶的切割,即使随着蛋白质浓度或时间的增加也阻止了100%的切割。相反,当我们模拟一种非生产性的硝化纤维结合-无能的相互作用时,我们预期在结合和切割数据中都出现相同的亚饱和行为:RNP:形成硝化纤维结合-无能相互作用的靶复合物被阻止进行切割,所有其他靶被切割。在我们的最终模型中,门控发生在两个步骤中,使得最终切割水平受最大生产性结合水平的限制,而最大生产性结合水平又可以在0到100%的范围内变化(对角线以下的区域图5C,右下角)。这个最终模型可以在结合和裂解阶段产生双重的亚饱和行为。

我们将联合关联拟合数据中的最大生产性结合估计值与20 nM切割数据中的最终切割水平估计值相结合,以研究上述每种模型的可能性。对于各种各样的非目标序列,拟合值的分布强烈倾向于Cas9具有亚饱和行为的模型,用于生产性关联和切割(图5D).具有单个RNA的靶:通过过滤结合来测量,DNA错配似乎显示出生产性结合的广泛门控,但是,在似乎结合的部分中,几乎所有的都能够切割。所有其他类别的非靶序列的关联和切割数据与亚饱和结合和切割一致。对于大多数Cas9 RNPs,关联门控的程度呈双峰分布,在卵裂水平没有观察到。

Cas9关联的可逆性随着时间的推移而下降

我们之前注意到较长的RNP潜伏期最终导致解离度降低(15).为了在不同的向导中描述这种现象,我们以类似于关联实验的方式收集了与20 nM dCas9关联15和60分钟后的解离数据系列(图6A).我们证实在PAM下游20 nt的大通DNA(无流动细胞接头)足以抑制dCas9的结合(图S5)。将Chase DNA加入到缔合反应池中,然后将其转移到硝酸纤维素覆盖的真空歧管中。丧失PAM末端互补性的λ1靶在分钟的时间尺度上显示解离(图6B).当互补性从20 BP下降到16 bp时,λ1靶的平均偏离率单调增加(图6C和表S14)。因此,我们的结果与之前对λ1靶的研究一致(15).

图6 dCas9解离的量化。

A)解离实验依赖于添加一个DNA接收器,在与20纳米dCas9 RNP进行初始可变时间孵育后,该接收器阻止与适配器标记的文库的进一步结合。(B)结合到λ1靶的分数是时间和PAM末端错配数目的函数。结合的分数标准化为加入DNA库后的第一个时间点的分数。(C)观察到的λ1 sgRNA:dCas9解离速率显示为互补程度的函数(x轴)和添加DNA下沉(点颜色)之前所经过的时间。黄点(0关联时间)取自三种dCas9浓度的联合关联拟合。虚线下方的点低于检测极限。(D)跨12个sgRNAs的可观察解离总结。关联时间越长,显示解离的序列越少。在联合配合中,红色分数的配合偏离率低于0.01/秒。

 

总的来说,我们在12个相同的sgRNAs上测试了6865个非靶序列,这些序列是在多个dCas9浓度下测量的。其中,2300个在解离前没有足够的结合,618个在联合关联拟合中符合可忽略不计的偏离率,2548个在给定我们进行的解离实验的时间尺度下显示出低于检测极限的解离。其余1399个分布在12个基因重组体中的非靶位显示出与λ1相似的模式:互补缺失PAM-远端,从20到16 bp,增加了可观察到的解离,从9到44%(对于15分钟的关联实验)和从0到22%(对于60分钟的关联实验) (图6D).RNP:靶复合物比例的增加能够释放具有PAM末端错配的靶,这支持了全靶:导向配对显著降低Cas9结合可逆性的假设。

Cas9结合和断裂对目标扰动表现出不同的敏感性

我们的结果提出了一个模型,其中Cas9捕获处于缓慢作用或非生产状态的非靶序列,这两种状态都不被硝化纤维结合,并阻止向切割的进展(图7A).在这个模型下,两个与浓度无关的参数决定了当蛋白质饱和时,切割是否会发生在靶位点:生产性结合的概率和切割的概率(以生产性结合为条件)。卡斯9 RNP:目标相互作用切割可及目标的概率是两者的乘积。

图7 Cas9缔合和裂解模型。

A)生产性关联和成功分裂的检查点说明。这些非生产状态的逆向反应很慢。生产性捆绑的概率(P生产性装订)等于估计的最大生产性结合。断交的概率(P切割)等于被切割的最终部分除以最大生产性结合。的完整生物物理模型P生产性装订和P切割作为δδ的函数G摄动,δGRNP:完美的目标,和m导航技术显示了。(B)所有Cas9 RNPs中生产性结合和断裂估计的拟合和观测概率的2D直方图。(C)RMSE在预测P生产性装订和P切割显示了我们的完整模型和替代的更简单的估计。(D)拟合δδG摄动显示的用于生产性结合和切割的选择靶的值,通过扰动位置绘制(x轴)和类型(y轴)。白色圆圈代表检测极限以上的测量值。(E)生产性结合δδ的比较G摄动对Jost等等。预测sgRNA系列中CRISPRi相对活性的估计值(左)。可用δδ评分的目标类型的广度G摄动相对于美国有线电视新闻网的得分值(右)。

 

为了了解生产性结合和断裂的序列决定因素,我们设计了一个适用于这两个参数的生物物理框架。我们首先为12个Cas9 RNP:完美靶对中的每一个分配了一个基线能量值,以捕获观察到的完美靶的部分生产性结合和断裂(δGRNP:完美的目标).为了对Cas9 RNPs中的靶进行分组,我们在每个RNP:靶对的每个位置注释了错配(过渡、互补或两者都有)以及RNA和DNA凸起(从1到3 nt),并定义了具有相同注释的靶,因为它们共享相同的“靶扰动”(表S15和S16)。然后我们拟合一个能量损失,它降低了产生结合或断裂的可能性(δδG摄动)对每一个目标的扰动。最初的建模尝试表明,不同的Cas9 RNPs对序列扰动表现出不同的敏感性;为此,我们还包括一个能量标度参数(m导航技术)这使得这些能量扰动的总体幅度随引导而变化。

RNP数据集的遗漏交叉验证表明,扰动惩罚是稳定的,并且与保留数据的最大生产约束估计值有很好的相关性(平均斯皮尔曼相关系数为0.81;图S6A)。利用这一框架,我们对446个不同的靶微扰和11个dCas9 RNPs的RNP特异能量参数(使用4871结合测量)以及分别对439个微扰和10个Cas9 RNPs的RNP特异能量参数(使用3603结合和裂解测量)进行了生产结合能惩罚拟合(参见材料和方法;图7B和表S17)。生产结合能标度参数的对数与RNP高度相关:理想目标结合基线能量(稀有= −0.78,P= 7 × 10−3;表S18),断裂能标度参数的对数(稀有= −0.78,P= 8 × 10−3;图S6B)。由此,我们推断,当错配破坏它们的配对时,更具能量优势的Cas9 RNP:完美靶对遭受相应的更大惩罚,意外地将结合敏感性与特异性联系起来。

生物物理建模表明,在采用均方根误差(RMSE)测量的每次扰动的平均值时,性能有所提高,特别是对于生产性结合(生产性结合RMSE为0.12对0.21;0.14对0.17的RMSE断裂;图7C),并对sgRNAs和DNA靶标之间的错配如何影响生产性结合和断裂概率产生了清晰的见解。PAM末端位置(20-13)的序列扰动被普遍认为没有能量损失,7-bp的种子匹配足以辨别某种水平的生产性结合。此外,由于PAM-近端种子错配导致的生产性结合损失可以通过增加PAM-远端的互补性来部分挽救,需要大约两个额外的远端匹配来补偿每个种子错配(图7C和图S6C)。相比之下,断裂最受跨越位置16至11的错配干扰(图7D),sgRNA和靶之间的一系列六个或更多错配通常会消除断裂活性(图S6C)。这些发现与截短的γ-氨基丁酸的研究一致,表明Cas9 RNP结合是稳定的,具有大约14 nt的gRNA互补(32,35).

我们还探讨了双错配靶的最大生产结合能惩罚是否与其组成性单错配相关。连续的双重错配明显偏离了可加性。最值得注意的是PAM末端位置,其中单个失配能量损失被设置为0,但是双失配能量损失超过1kt(图S6D和表S19)。相比之下,间隔至少4个核苷酸的非连续双错配似乎是相加的,这表明足够远的错配可能对生产性结合有独立的影响。

最后,我们评估了生产性结合δδG摄动数值可以预测人类细胞中CRISPRi的相对敲除。在3011个单错配sgRNA序列的启动子中,我们比较了测量的CRISPRi表型和我们估计的δδG摄动由卷积神经网络(CNN)预测的生产性结合和活性,该神经网络包含除了RNA-DNA错配的身份之外的附加特征(例如GC含量和相对于转录起始位点的位置),并在该数据集(图7E) (27).δδ的斯皮曼平均相关系数为0.508G摄动而美国有线电视新闻网为0.667。因此,虽然美国有线电视新闻网专门针对这些数据进行了培训,但总体得分非常相似(模型之间的平均相关性为0.74),这表明控制Cas9结合和切割的生化参数是影响体内疗效的主要特征。然而,因为CNN模型只在单个失配数据上训练,它不能预测更复杂的扰动,而我们的δδG摄动预测跨越各种各样的偏离目标,包括1至3 nt的膨胀和任意大小的不匹配系列,这大大扩展了偏离目标评估的范围。出乎意料的是,在我们估计的386个更复杂的扰动中,有204个(53%)预测的靶外活动至少与单个错配靶的预测一样大,这突出了在体内靶外评估中考虑具有这些和类似扰动的靶外活动的至关重要性。

讨论

在这里,我们展示了一个大型的Spy Cas9结合和切割语料库,通过进一步并行化我们的基于测序的过滤器结合分析,可以跨越不同的sgRNA序列和相应的DNA非靶序列。我们现在报告每项偏离目标的测量的摊余成本为8美分。与需要维护射流和显微镜的基于成像的方法相比,我们的新设计需要最少的设备:主要是一个96孔的真空歧管。我们分析了大约10个3每RNP每项实验的非目标,并推测该技术在Cas9或其他感兴趣的DNA或RNA结合蛋白中的未来应用可以通过直接的方案修改来评估超过250,000个目标。因此,我们认为大规模平行过滤器结合代表了一种成本效益高、操作简单的分析蛋白质-核酸结合动力学的工具。

在这项研究中,我们表明,完美的靶关联动力学的差异似乎解释了sgRNAs筛选效率的一些差异。两种未被充分认识的现象——SGRNA折叠和不利的延伸PAM序列——似乎在结合水平上改变了功效,对CRISPRi/a和CRISPR KO(敲除)筛选都有影响(26).然后,我们将完美的目标生物物理测量值与CRISPRia评分进行比较22)并发现RNP协会的经验测量显示出对sgRNA功效的更大的预测能力。由于过滤器结合实验通常比基于CRISPRi的细胞筛查更简单、更快,我们认为体外关联率的测量可能是评估指南疗效的计算方法和基于细胞的方法的有用替代方法。这些发现也重申了活性位点滴定的重要性,以解开许多可能干扰体外CRISPR酶活性的因素(12).

然而,改变Cas9 RNP协会的非目标似乎并不能解释非目标网站的活动减少。我们观察到,非靶序列的关联动力学通常紧密地聚集在它们各自的理想靶周围。因此,非靶活性的变化不太可能由切割或结合速率的差异来控制,这与所提出的对其他核酸引导的蛋白质(36).这与Cas9偏离率增加在解释较低偏离靶活性中的作用形成对比,如在PAM末端错配的情况下(15).此外,最初的结合亲和力表明,稍多于几个PAM可能足以使dCas9占据。这两个观察结果似乎与CRISPRi筛查中报道的sgRNAs的高特异性相冲突。

我们还观察到许多结合的脱氧核糖核酸靶的断裂是不完全的,支持分支而不是线性的(32)涉及中间状态的结合和切割过程。其他研究人员将不完全裂解归因于包含15% RNP的非生产状态的存在:Cas9催化中的靶复合物和慢双相反应步骤(10,12,13).我们的非靶数据集的扩大范围强烈表明,切割的概率因sgRNA序列和与相应的DNA靶的互补程度而异。最可能的解释是,稳定结合和稳定结合靶的断裂概率都强烈依赖于浓度无关的RNP:靶对的序列同一性,范围高于和低于通常研究的RNP:靶对的15%。这种行为表明,多个检查点已经进化为独立于Cas9 RNP:目标交互亲和力来减轻Spy Cas9非目标活动。

出乎意料的是,我们发现Cas9过滤器结合实验似乎反映了结合或未结合的二元概念之外的附加状态信息。具体来说,含有大量sgRNA的非靶:靶错配在通过硝酸纤维素时很少完全耗尽,而增加RNP浓度并不会增强耗尽。RNP:靶对的推断最大损耗始终作为可切割靶部分的上限,表明这种状态不适合切割。我们推测,非靶位点以缓慢作用或非生产状态捕获Cas9,当通过硝酸纤维素(图7A).这种非生产状态的分子基础还没有被我们的过滤器结合实验解决。区分部分R环形成和新的Cas9构象等解释将需要替代方法,以埃级分辨率报告Cas9 RNP复合成分的空间邻近性。

Cas9与目标内外站点的合作方式与Cas9技术的应用有着明显的实际相关性。有人提出了一个与我们相似的dCas9结合模型,来解释错配的sgRNAs如何允许细菌中浓度无关的、无噪声的CRISPRi介导的基因沉默(37).作者观察到dCas9抵抗RNA聚合酶延伸的驱逐,并以固定的概率阻断基因表达,P(停止),这与目标互补性正相关。我们推测P(停止)可能在功能上等同于我们报道的生产性结合的概率和非生产性Cas9 RNP:靶相互作用很容易通过与RNA聚合酶碰撞或通过硝酸纤维素而被破坏。因此,我们的工作增加了非生产性束缚态(12,13,38).

理解非靶关联和切割可能是工程化CRISPR酶的主要变异体的关键。大多数研究都集中在优化Spy Cas9卵裂(9,39,40),最近的一篇文章证实了最广泛使用的工程Cas9s的关联动力学与其野生型对应物没有区别(41).然而,围绕Spy Cas9结合设计的工程努力已经实现了更大的靶向功效和特异性(39).更广泛地说,非靶检测方法已经证明了显著的时间和浓度依赖性非靶活性(42,43),并且已经发现动力学分配支持工程Cas9衍生物的增强的特异性(44).因此,蛋白质工程的努力不太可能为在不同时间尺度上运行的实验提供单一的解决方案,这些实验对非目标效应具有不同的耐受性,而更先进的Cas9活动生物物理模型仍然是重中之重。

尽管几个小组做出了努力,预测任意RNP复合物与靶序列结合的动力学和热力学仍然是一个突出的挑战。之前未被表征的Cas9结合PAM下游14 nt的3’序列要求直到最近才被发现(45,46),我们对此进行了确认(图S5)。而最初的RNA测序数据显示CRISPRi很少或没有非靶活性(47),人类细胞系中非编码元件筛选的新结果(48)和细菌中必需基因的筛选(49,50)表明,各种序列仍然难以靶向,而不可能产生实质性的非靶向效应。我们观察到显示强靶结合的导向序列通常具有更强的选择性结合行为,这也可能对纠正较差的gRNA表现有所启示。

我们希望未来的Cas9结合和切割模型能够以一种稳健的方式解决Cas9靶参与的多个阶段,以指导和靶向序列。这包括由无功能蛋白质、导向错误折叠和无生产状态引起的无活性蛋白质部分。Cas9结合和切割模型参数化了从PAM结合到R-环形成和靶切割的分子进展,并继续成熟(51,52)并可能阐明多重错配如何阻碍Cas9结合和切割,以及Cas9 RNP复合物如何进入非生产状态。我们预计,随着越来越多的导向序列用于治疗应用,产生关于非靶结合的大规模数据,以及潜在结合和切割事件的详细热力学模型将变得更加重要。

材料和方法

Cas9 RNP准备

根据制造商的说明,使用NEB EnGen sgRNA合成试剂盒(目录号E3322S)体外转录sgRNA,从每个sgRNA 0.15个反应单位开始,根据需要放大到0.5个单位,为每个SGRna产生足够的物质。使用Agencourt RNAClean XP珠对所有sgRNA进行纯化(零件号A63987),并使用酵母RNA Clean & Concentrator-5(目录号R1013)进行额外合成。Cas9和dCas9由Doudna实验室提供。

为了装载,将每一个sgRNA在98℃孵育1分钟,然后缓慢冷却至室温。将dCas9稀释至100纳米,在1倍结合缓冲液[20毫摩尔tris-HCl (pH 7.5),100毫摩尔KCl,5毫摩尔氯化镁]中以20%过量与等体积的sgRNA一起孵育2、5%甘油、肝素(0.05毫克/毫升)、1毫摩尔二硫苏糖醇和0.005%吐温20],最终工作浓度为50纳米。在1×结合缓冲液中,将负载的dCas9进一步稀释,以获得用于缔合实验的所需浓度(1.25、5和20 nM)和用于解离实验的20 nM。

图书馆设计和准备

单错配、连续双错配、非连续双错配、核酸膨胀、连续错配系列和常见的固定序列是通过定制脚本以编程方式改变sgRNA靶序列来设计的。54,349个设计的非目标经过重复数据消除,形成46,393个唯一的序列,每个序列分配一个元素id。例如,删除一个同聚物中的相邻位置会产生多个注释,但只有一个元素id。

除了23-bp的靶序列和6-bp的5′和3′侧翼序列,每个靶元件的亚文库都被分配了一个13-bp的引物结合位点,放在上游进行扩增(45).带有GG或CC二核苷酸的引物结合位点被去除,以防止仅PAM结合。通用衔接子(17和18 bp)被添加到构建体的每一端,以允许一次扩增所有寡核苷酸。寡核苷酸在92,918阵列(每个序列一式两份)上通过array在单个池中合成,并使用NEBNext 2X主混合物(目录号M0541L)进行聚合酶链反应扩增。

在最初的扩增后,每个亚文库在不同的反应中用16对不同的条形码正向和反向引物进行扩增(98℃变性、68℃退火和72℃延伸)。聚合酶链反应产物在稀释至1纳米寡核苷酸工作总浓度前,用安培尔珠纯化,用量子比特dsDNA试剂盒(目录号Q32854)定量。

大规模并行过滤器绑定实验

通过3D打印从3D集线器(ABS FDM,40%填充,200-微米分辨率)在线订购了定制设计的适配器,用于将样品装载到真空歧管中。适配器表面用300号砂纸打磨,以去除3D打印留下的条纹。使用前,表面涂有超疏水残留物,以防止样品因表面润湿而流失。防锈油不沾水(亚马逊)第一步先用两到四次短时间喷洒,然后在通风柜中干燥2小时。涂上一层步骤2的涂层,然后放置干燥过夜。第二天涂覆第二层涂层,并在使用前完全干燥。疏水残留物保持完整一周,但会变质,如果放置时间较长,需要新的涂层才能达到最佳性能。

将一个1毫升深的96孔无菌板插入一个96孔真空歧管的底部,将上半部分放在板上,在板的表面铺上一层Fibre Craft泡沫(Amazon)的切割部分,并添加自定义适配器以伸入孔中,从而组装过滤器绑定真空歧管系统。为了制备硝化纤维,在转移到适配器的表面以形成真空密封之前,将预切割的膜浸泡在结合缓冲液中。

对于关联实验,将1.25、5和20 nM dCas9(上下文实验为10 nM dCas9)分别与16个条形码文库(最终文库浓度,100 pM)在40μl 1×结合缓冲液中于室温(22和24°C之间)孵育,计时以在关联的1、2、3、4、5.5、8、11、15.5、21.5、30、42、59和60分钟以及三个零时间点产生测量值。对于解离实验,20 nM dCas9与14个条形码文库在室温下孵育上述每个结合时间,随后添加最终浓度为40 nM的竞争对手靶DNA,以产生在1、2、3.5、7、13、25、47和90分钟解离加上两个预解离样品和四个零时间点的测量结果。

每个缔合和解离时间点反应都通过硝酸纤维素过滤器,从相应的孔中收集流通液。使用Qiagen MinElute柱汇集和纯化六个子库的样品。在关联实验的情况下,通过量子位dsDNA HS分析对文库进行定量,在解离和切割实验的情况下,通过标准曲线的定量聚合酶链反应对文库进行定量,该标准曲线源自量子位定量的dsDNA文库。所有文库均使用Illumina NextSeq v3化学进行测序,无聚合酶链反应,2 × 75个读数。

卵裂实验

将加载的活性Cas9加入到结合缓冲液中的条形码目标文库中,然后用16 mM乙二胺四乙酸淬灭并置于冰上,时间与关联实验中相同。乙二胺四乙酸猝灭后,反应立即在65℃孵育10分钟,使Cas9失活。如上所述,使用Qiagen MinElute柱汇集和净化反应。

电动位移测定

脱氧核糖核酸寡核苷酸是从IDT订购的,因此Cas9靶序列上游6个碱基的正向寡核苷酸与靶序列下游可变碱基数(7、16或20个碱基)的反向寡核苷酸部分重叠。一个反向的Atto532标记的寡核苷酸向下游延伸了20个碱基,被平行排序,以便在台风成像仪上显示结果。所有反向寡核苷酸都经过退火,并使用NEBNext 2X主混合物与正向寡核苷酸一起延伸。将标记的DNA加入到dCas9 RNP中,加入或不加入相同长度的未标记的竞争对手DNA(同样在目标下游7、16或20 bp),最终浓度为200 pM标记的DNA、5 nM dCas9 RNP和20 nM竞争对手。使用Novex 10% TBE预制凝胶(目录号EC6275BOX)通过电泳分离结合和未结合的标记DNA。

顺序读取数据分析

首先使用SeqPurge(53).使用闪存合并修剪的正向和反向读取(54)最大不匹配密度参数设置为0.01,最小重叠参数设置为10。将合并的fastq读数分配给靶文库序列,允许亚文库引物序列中有一个单核苷酸错配,其余靶序列完全匹配。读取按目标进行聚合,以生成每个目标和时间点的计数表。

估计最终结合分数、最终切割分数、初始结合亲和力和最大生产结合

对于单一浓度关联,使用nls函数将每个目标的计数数据拟合到以下等式

c(t)∼c控制(t)×c(0)c控制(0)×(一−f最后的×(一−e−k观察(=Observation)t))
ct)是时间点的目标序列计数tc控制(t)是时间点的控制序列计数t。对于所有实验,对照序列计数由完全互补的靶序列(“CM”)和PAM GG二核苷酸被TT二核苷酸(“KO”)取代的靶的总和计数组成。f最后的是最终分数界限,并且k观察(=Observation)是观察到的速率常数。f最后的初始化为0.9,并且k观察(=Observation)至每分钟0.024牛米乘以Cas9浓度。控制参数设置为nls . control(max ter = 300,warnOnly = TRUE)。

 

对于数据可视化,分数界限[f界(t)]推断如下

c预计(t)=c(0)×c控制(t)c控制(0)
f界(t)=一−c观察(t)c预计(t)+0.1
分母增加了0.1,以防止在时间点0出现零读数的罕见情况下出现被零除的错误。推断分数界限的置信区间(90%)通过加和减1.64倍的平方根来计算ct)并像以前一样计算最终分数界限。

 

由于以下标准,一些目标不适合:

1)在整个实验过程中,结合不是动态的。最近两个时间点的平均最终分数界限没有超过前两个时间点的90%置信区间的上限。

2)目标序列的计数太小,不可靠。在实验的前半部分,超过30次读取的时间点不到五个。

没有满足上述两个要求的目标被进一步分层。在非动态的目标中,那些在实验的后半部分中至少有五个时间点的整个90%置信区间超过0的目标被拟合到基于实验的后半部分中的时间点的水平线(无速率参数)。在剩余的靶中,那些在实验后半部分中平均低于15%最终结合分数的靶被标记为低亲和力。剩余部分(即,从实验开始到结束,置信区间大且最终分数界限变化小的目标)被标注为有噪声。

我们观察到,在执行初始拟合后,在同一实验中,一些时间点是跨DNA目标的一致异常值。这可以用这种异常点的偏差控制目标计数来解释,这将影响对所有其他目标的分数界限的推断。为了解决这个问题,排除平均残差幅度超过平均残差幅度中值2.5倍的时间点,并使用剩余时间点重新调整计数数据。在所有关联实验中,每个实验平均排除16个时间点中的1.9个和16个时间点中的1个。我们报告的关联率指的是f最后的乘k观察(=Observation)。切割数据以与结合数据相同的方式拟合。

对于三种dCas9浓度的联合关联分析,推断分数范围之外的测量值从0到150%被排除为异常值。过滤后,使用以下等式

c(t,M条件接收系统9)∼c控制(t,M条件接收系统9)×c(0,M条件接收系统9)c控制(0,M条件接收系统9)×(一−J(t,M条件接收系统9))
J(t,M条件接收系统9)=k在…上×M条件接收系统9k在…上×M条件接收系统9+k离开×(一−e−(k在…上M条件接收系统9+k离开)t)×f界,最大的
MdCas9是dCas9的浓度(M)。f极限是最大的生产绑定。

 

对于接头配合,k在…上初始化为2 × 10七每分钟每米,k离开至每分钟0.02,以及f极限到0.85。

初始结合亲和力的计算公式如下k在…上和k离开以…的方式Kd,以为单位报告kT

ΔG初始绑定=−日志(k离开k在…上)
在关联实验中,要求解离实验中的目标在实验过程中结合分数下降15%才能合格(足够动态)。解离前结合率不超过15%的序列被认为亲和力低,不考虑。只有淬火后的时间点(t%3E 0)被包括在适合中。

 

解离实验符合不同的方程式

c(t)∼c控制(t)×c(0)c控制(0)×(一−f界,最小的−D(t))
D(t)=(f界,最初的−f界,最小的)×e−k离开t
f最小界限是在实验的时间尺度上没有反转的dCas9的拟合分数。f绑定,初始dCas9的拟合分数是否在t= 0.

 

拟合曲线后,用k观察(=Observation)或者k离开低于每分钟0.02,观察到的速率高于每分钟2,以及f最后的高于1.2,或f最后的低于0.2被排除为不良拟合。

3’背景效果的LASSO模型用R包glmnet拟合。通过运行带有参数s = "lambda.1se "的coef命令,检索按位置划分的二聚体恒等式的系数。

为生产性结合和断裂概率定义生物物理模型参数

我们假设进入生产性束缚态或非生产性束缚态之间的Cas9 RNP:完美靶对的选择可以用简单的能隙δ来模拟GRNP:完美的目标更多的负能量有利于生产性束缚。我们预计大多数Cas9 RNPs的值应该接近或低于零,这样生产性结合的概率接近或高于50%。此外,我们为每个序列扰动分配一个固定的能隙调整值,它的应用与Cas9 RNP:δδ无关G摄动。然而,不同的Cas9 RNP:目标配对会受到不匹配和膨胀的不同影响,这是有道理的。具体来说,预计RNP:能量更有利的目标对在受到干扰时会遭受更大的能量损失。我们首先尝试了一种无参数校正,使用了通过MELTING5估计的DNA:DNA和RNA:DNA双链体杂交能量,但是性能很差。相反,我们引入了另一个参数(m导航技术)缩放δδG摄动佩尔·RNP。

从这些参数中,我们导出了生产性绑定的概率

P生产性装订=(一+经历(ΔG导航技术:完美目标+m导航技术ΔΔG摄动))−一
同样的方程被用于分裂的概率。

 

为生产性结合和断裂拟合生物物理模型参数

最大生产性结合数据被dCas9 RNP指导序列组织成一个序列扰动矩阵。最大生产性结合水平受一系列质量控制步骤的影响:

1)最大生产性结合的过大估计值(%3E150%)被缺失值(NAs)替代。

2)删除了替代的完美目标上下文,以确保δ有一个值GRNP:完美的目标。

3)初始速度慢的目标k在…上(%3C2,000,000 M−1部−1)或快速初始k离开(%3E1分钟−1)的估计值被替换为2%的最大生产性结合。

4)最大生产性结合(3E98%)估计值高的目标被替换为98%。

5)最大生产性结合估计值低的目标(%3C2%)被替换为2%。

6)去除了具有少于四个有效最大生产性结合估计值(来自不同RNP)的序列扰动。

过滤后,仍有465个扰动需要拟合,其中19个是冗余编码的扰动。一个RNP(VEGFA位点1的反向互补)被完全排除,因为生产性结合水平低,有效拟合值少,留下11列用于465×11数据矩阵d

所有的生产性结合参数都是用r中的nls.lm函数联合拟合的m导航技术通过仅拟合10个自由参数并推断第11个参数,参数被约束为1。m导航技术值被初始化为1,δGRNP:完美的目标值被初始化为0。ΔΔG摄动通过将从完美目标到扰动目标的生产性结合的概率差转换为δ来初始化值G取所有dCas9 RNPs的平均值。如果扰动的平均值低于0.1kt,设置为0.1kT.

m导航技术数值在0.2和5之间。ΔGRNP:完美的目标数值在6和3之间kT.ΔΔG摄动数值在0.1至6 kT之间。

数据矩阵m预测如下

dˆ=一/(一+经历(t(特征(m导航技术)%*%矩阵(一,11,465)%*%特征(ΔΔG摄动)+特征(ΔG导航技术:完美的目标)%*%矩阵(一,11,465))))

 

通过取以下两者之间的差值,将残差报告给nls.lmdˆ和d,去除NA值,将矩阵转换为向量。拟合后,δδG摄动低于0的值被设置为0。

初始拟合后,手动检查平均绝对偏差排名前20位的扰动是否存在潜在异常值。在检查的220个测量值中,9个dCas9 RNP:偏离目标对似乎有极值,被指定为异常值。在大多数情况下,重新调整数据对拟合值的影响很小,这表明,总体而言,拟合对随机误差是稳健的。

通过从中移除一列来执行遗漏交叉验证d并取斯皮尔曼相关学习δδG摄动生产性绑定的值和估计概率(不受δ的影响GRNP:完美的目标或者m导航技术).

断裂点数据的概率也是如此,只是增加了一些步骤和修改。生产性结合的概率低于2%的测量被NAs代替。99%以上的最终切割水平被99%替代。断裂概率计算为最大生产性结合除以最终切割水平。99%以上的断裂概率被替换为99%。低于10%的断裂概率被替换为10%,因为低水平的断裂难以解决,尤其是当生产性结合的概率较低时。

尽管由于所有靶的切割水平较低,去除了一个额外的Cas9 RNP(λ1末端序列的反向互补序列),但总共能够拟合458个扰动。ΔΔG摄动值被限制在0.1至7 kT之间,因为完美靶的断裂概率通常超过完美靶的生产性结合概率,这增加了δ的检测范围GRNP:完美的目标价值观。最后,在误差最大的20次扰动的200次测量中,只有4次测量被视为异常值。

原文链接:

https://advances.sciencemag.org/content/7/8/eabe5496?rss=1

crispr/cas9 基因编辑线上答疑来啦!!!2021年3月2日下午14:00  国际知名核酸技术品牌IDT  庞志敏博士 crispr基因编辑 在线答疑解惑,如果你有任何关于基因编辑方面的疑问,快来约起吧~

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值