标准正态分布表_表达矩阵的归一化和标准化,去除极端值,异常值

本文探讨RNA-seq数据处理中的归一化和标准化,解释取log和z-score对表达量的影响。归一化用于调整不同量级的表达量,标准化通过z-score实现数据标准化,降低异常值影响。了解何时使用归一化或标准化对于优化数据挖掘结果至关重要。
摘要由CSDN通过智能技术生成

我们阅读量破万的综述:RNA-seq这十年(3万字长文综述)给粉丝朋友们带来了很多理解上的挑战,所以我们开辟专栏慢慢介绍其中的一些概念性的问题,上一期:

RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同

在数据挖掘过程,数据的归一化和标准化是必须的。取log值就是一种归一化的方法,z-score是常用的标准正态分布化的方法。

归一化和标准化的区别

实际上口语里面通常是没办法很便捷的区分这两个概念。
归一化:将每个样本的特征值(在转录组中,特征值就是表达量)转换到同一量纲下,把表达量映射到特定的区间内,区间的上下限由表达量的极值决定,这种区间缩放法是归一化的常用方法
标准化:按照表达矩阵中的一个基因在不同样本中的表达量处理数据,每个样本点都能对标准化产生影响,通过求z-score值,转换为标准正态分布,经过处理的数据的均值为0,标准差为1,因此z-score也称为零-均值规范化。

取log对表达量的影响

原始的raw counts矩阵是一个离散型的变量,离散程度很高。有的基因

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值