FDR

FDR(false discovery rate),是统计学中常见的一个名词,翻译为伪发现率,其意义为是 错误拒绝(拒绝真的(原)假设)的个数占所有被拒绝的原假设个数的比例的期望值

错误拒绝真/拒绝总数

FDR(false discovery rate),是统计学中常见的一个名词,翻译为伪发现率,其意义为是 错误拒绝(拒绝真的(原)假设)的个数占所有被拒绝的原假设个数的比例的期望值。

统计学中的假设检验的基本思路是:
设立零假设(null hypothesis)H0,以及与零假设 相对应的非零假设(alternative hypothesis, or reject null hypothesis) H1,在假设H0 成立的前提下,计算出H0发生的概率,若 H0 的发生概率很低,基于小概率事件几乎不可能发生,所以可以拒绝零假设

但是这些传统的假设检验方法研究的对象,都是一次试验

FDR (false discovery rate),中文一般译作错误发现率。在转录组分析中,主要用在差异表达基因的分析中,控制最终分析结果中,假阳性结果的比例。

为什么要用FDR
一般来说,我们认为,不同样品中,表达量差异在两倍以上的转录本,是具有表达差异的转录本。为了判断两个样品之间的表达量差异究竟是由于各种误差导致的还是本质差异,我们需要根据所有基因在这两个样本中的表达量数据进行假设检验。常用的假设检验方法有t-检验、卡方检验等。很多刚接触转录组分析的人可能会有这样一个疑问,一个转录本是不是差异表达,做完假设检验看P-value不就可以了么?为什么会有FDR这样一个新的概念出现?这是因为转录组分析并不是针对一个或几个转录本进行分析,转录组分析的是一个样品中所转录表达的所有转录本。所以,一个样品当中有多少转录本,就需要对多少转录本进行假设检验。这会导致一个很严重的问题,在单次假设检验中较低的假阳性比例会累积到一个非常惊人的程度。举个不太严谨的例子。假设现在有这样一个项目:

● 包含两个样品,共得到10000条转录本的表达量数据,

● 其中有100条转录本的表达量在两个样品中是有差异的。

● 针对单个基因的差异表达分析有1%的假阳性。

由于存在1%假阳性的结果,在我们分析完这10000个基因后,我们会得到100个假阳性导致的错误结果,加上100条真实存在的结果,共计200个结果。在这个例子中,一次分析得到的200个差异表达基因中,有50%都是假阳性导致的错误结果,这显然是不可接受的。为了解决这个问题,FDR这个概念被引入,以控制最终得到的分析结果中假阳性的比例。

FDR的计算是根据假设检验的P-value进行校正而得到的。一般来说,FDR的计算采用Benjamini-Hochberg方法(简称BH法),计算方法如下:

*1. 将所有P-value升序排列.P-value记为P,P-value的序号记为i,P-value的总数记为m
2. FDR(i)=P(i)m/i
3. 根据i的取值从大到小,依次执行FDR(i)=min{FDR(i),FDR(i+1)}

注:实际上,BH法的原始算法是找到一个最大的i,满足P≤i/m*FDR阈值,此时,所有小于i的数据就都可以认为是显著的。在实践中,为了能够在比较方便的用不同的FDR阈值对数据进行分析,采用了步骤3里的方法。这个方法可以保证,不论FDR阈值选择多少,都可以直接根据FDR的数值来直接找到所有显著的数据。
下面我们以一个包含10个数据的例子来看一下FDR计算的过程

在这个例子中,第一列是原始的P-value,第二列是排序后的序号,第三列是根据P-value校正得到的初始FDR,第四列是最终用于筛选数据的FDR数值。如果我们设定FDR<0.05,那么绿色高亮的两个数据就是最终分析认为显著的数据。
在这个例子中,第一列是原始的P-value,第二列是排序后的序号,第三列是根据P-value校正得到的初始FDR,第四列是最终用于筛选数据的FDR数值。如果我们设定FDR<0.05,那么绿色高亮的两个数据就是最终分析认为显著的数据。

FDR的阈值选择在转录组分析中是非常重要的一个环节,常用的阈值包括0.01、0.05、0.1等。实践中也可以根据实际的需要来灵活选择。例如,在做真菌或者原核生物的转录组分析时,由于这些物种转录本数量较少,假阳性累积的程度较低,所以可以适当将FDR阈值设置的较高一些,这样可以获得较多的差异表达结果,有利于后续的分析。

<think>好的,用户问的是FDR在IT领域的含义。首先,我需要明确FDR这个缩写在不同领域可能有不同的解释,所以要先确定用户提到的IT领域的具体上下文。 首先想到FDR常见的几个含义。在计算机领域,最常见的是“故障检测与恢复”(Fault Detection and Recovery),这涉及到系统监控和自动修复机制。另外,FDR在数据存储方面可能指“全数据恢复”(Full Data Recovery),用于备份和恢复策略。还有可能是指“功能数据注册表”(Functional Data Registry),用于管理元数据或配置信息。 然后检查用户提供的引用内容,看看是否有相关线索。引用[3]提到飞机数据异常检测和RNN的应用,这里FDR可能是“飞行数据记录器”(Flight Data Recorder),但用户明确询问IT领域,所以需要排除这个可能。不过用户提供的引用中有关于系统V的信息,可能与系统层面的故障恢复有关联,比如System V的进程管理或容错机制。 接下来,需要验证这些可能的解释是否有可靠来源支持。故障检测与恢复(FDR)确实是IT系统中常用的术语,尤其在分布式系统和容错设计中。全数据恢复(FDR)在存储和备份解决方案中常见,如IBM的FDR产品。功能数据注册表(Functional Data Registry)可能在特定框架或系统中使用,但相对较少见。 考虑到用户的问题可能涉及系统设计或数据管理,优先解释FDR为“故障检测与恢复”或“全数据恢复”。需要进一步区分这两个术语的应用场景。例如,FDR在系统设计中更多指实时监控和自动处理故障,而全数据恢复则涉及数据备份和灾难恢复。 此外,引用[3]中的异常检测技术可能与故障检测相关,但用户的问题独立于该引用。因此,在回答时需要明确不同可能的含义,并建议用户根据上下文进一步确认。同时,生成相关问题来帮助用户深入理解每个可能的含义,如应用场景、技术实现和工具等。 最后,确保回答符合格式要求,使用中文,正确应用LaTeX格式,并添加引用标识。检查是否有遗漏的常见解释,例如金融领域的误用,但根据用户指定的IT领域,可以排除其他可能性。</think>在IT领域,**FDR**主要有以下三种常见含义,需根据具体上下文判断: 1. **故障检测与恢复(Fault Detection and Recovery)** 指系统通过实时监控、日志分析或心跳检测等机制识别异常(如硬件故障、软件崩溃),并触发自动恢复操作(如服务重启、资源重新分配)。例如在分布式系统中,FDR技术可保障服务高可用性[^1]。 2. **全数据恢复(Full Data Recovery)** 常见于存储领域,指通过备份文件、快照或日志回放等方式将数据完整恢复到特定时间点状态。如IBM的FDR/UPSTREAM就是典型的企业级数据备份工具[^2]。 3. **功能数据注册表(Functional Data Registry)** 用于集中管理配置信息、服务元数据或API接口定义,常见于微服务架构中。例如通过注册表实现服务发现和动态配置加载。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值