聚类本身就是最常用的异常值检测方法,大部分非监督的异常值检测都依靠聚类,K-MEANs&层次聚类对离群值非常敏感。改用密度聚类和高斯混合模型。
基因数据去噪: 对数转换可以使小于 1 的值变大,大于 1 的值变小,从而使它们关于 0 对称化,这种变换是否反映了一定的生物学意义。这样方便计算,但是在标准差接近0的时候,会产生比较大的噪声,log后,先标准化,靠近0的都删除,表达值大于1的是高表达,小于是低表达,
皮尔森相关系数:依赖于协方差,用协方差除以两个变量的标准差得到的。
斯皮尔曼相关系数:以均值和方差为根本