这两天在做蛋白质数据的EDA(exploratory data analysis)试了Table One、PCA、Volcano plot和Manhattan plot。实现语言为R。
数据简要介绍
蛋白质在全血中浓度log后的值,以及一张含各variable的表。protein数据648(proteins)*92(patients)。数据lung cancer case:control=322:325基本持平。case指lung cancer。
Table One
Table One用lung cancer case作为输出求各variable的p-value。Table One只能提供数据大致的第一印象。
需要注意的是在Table One中显著的variable并不能作为后面denoise data所用的adjust variable,原因有:
- 有的variable间本来可能就有联系,比如BMI和高血压,如果都adjust可能会有重复调整的风险
- Linear Mixed Model选择adjust variable应该根据reference选择合理的variable,是为了观察除这两个variable外潜在相关的variable,而不是根据p-value选择。
PCA
PCA如下图,结果很不好。问了别人,别人的结果也无法清晰分类。最后,大家的结论是PCA无法很好解释该数据,选择不用PCA。