r语言归一化_生物信息学之RMA(Robust Multi-Array Average)算法的归一化和最终计算过程...

上一篇介绍了RMA算法的背景校正部分。接下来是归一化和最终计算过程。

首先是归一化:

归一化就是将不同组之间的数据统一。因为组之间的数据虽然经过背景校正之后去除了部分噪音。

但是如果某一组自身因为内因或者外因导致的整体波动是没法去除的,如果不去除,会发现组间是不能比较的,因为某一组整体增加和减少会导致组与组之间的大小关系被破坏了,为此引入了归一化。

RMA算法之中归一化采用的是quantile normolization算法,这个算法的步骤如下:

首先假设我们有如下的矩阵:

532913113b44eaa5ae8d688eefa307d5.png该组能够看到第一列之中9比6大 第二列之中8比7大 可见每一个探针的大小关系是存在的,但是第一列的9比第二列的8大,第一列的6却比第二列的7小,这种组间的比较就显得很没有意义,因为组内存在着整体的波动。

我们按照列中从大到小排序:

75e18140d211a63c8ccedceeed02dd9c.png

之后我们求出每一行的平均数:

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
RMARobust Multichip Average)方法是一种常用的基因表达数据预处理方法,主要用于背景校正和归一化。下面是RMA方法进行背景校正和归一化的步骤: 1.背景校正 RMA方法的背景校正是通过PM(Perfect Match)和MM(Mismatch)探针的信号值来进行的。首先,对于每个探针,将其PM值和MM值相减得到差值,然后对这些差值进行核密度估计,得到一个核密度函数。接着,将这个核密度函数的峰值作为背景值,将所有探针的信号值减去这个背景值,得到校正后的信号值。 2.归一化 RMA方法的归一化是通过对样本之间的差异进行调整来实现的。具体来说,RMA方法使用了一个对数线性模型,将每个样本的信号值转换为对数值,然后对每个基因的对数值进行线性回归,得到一个回归系数。最后,将每个样本的对数值减去这个回归系数,得到归一化后的信号值。 下面是RMA方法进行背景校正和归一化的Python代码示例: ```python # 导入必要的库 import numpy as np import pandas as pd from sklearn.preprocessing import normalize # 读取数据 data = pd.read_csv('data.csv') # 背景校正 pm = data.filter(regex='^pm', axis=1).values mm = data.filter(regex='^mm', axis=1).values bg = np.median(pm - mm, axis=1) data = data.filter(regex='^[^pm|^mm]', axis=1) data = data.apply(lambda x: x - bg, axis=0) # 归一化 log_data = np.log2(data + 1) log_data = log_data.T log_data = normalize(log_data, norm='l2') log_data = log_data.T ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值