组学数据图谱前处理_导入数据,原始数据是.raw文件,需转换为mzxml文件-CSDN博客

本文链接：https://blog.csdn.net/wcy1995427/article/details/107671736

由于经常遇到坑，其他方法也有局限性，选择了这种方法的原始数据处理，里面的参数还需要根据实际图谱进行调整。

基于R的XCMS包进行图谱原始数据额处理，版本3.6以上安装XCMS包，最新的版本

if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("xcms")
Library(XCMS)

导入数据，原始数据是.RAW文件，需转换为mzXML文件，依靠 ProteoWizard并读取所有的.mzXML文件

f.in <- list.files(path="D:\\XSHPCOS1",pattern=".mzXML",recursive = TRUE,full.names=TRUE)

数据信息分组

pd <- data.frame(sample_name = sub(basename(f.in), pattern = ".mzXML",replacement = "", fixed = TRUE),sample_group = c(rep("H", 104), rep("LC", 43)),stringsAsFactors = FALSE)
raw_data <- readMSData(files = f.in, pdata = new("NAnnotatedDataFrame", pd), mode = "onDisk")

峰检测

cwp <- CentWaveParam(snthresh = 3, noise = 10, ppm = 100,peakwidth = c(3, 8))
xdata <- findChromPeaks(raw_data, param = cwp)

峰对齐及分组，方法有很多种，看具体所需

pdp <- PeakDensityParam(sampleGroups = xdata$sample_group,minFraction = 0.2)
xdata <- groupChromPeaks(xdata, param = pdp)

峰补齐，这一步可以不要，后续数据处理可进行不同的峰缺失值处理

xdata <- fillChromPeaks(xdata)

7.合并有用信息，包括m/z信息，RT信息，峰面积等

feature1<-featureDefinitions(xdata)
feature1<-feature1[,1:9]
feature2<-featureValues(xdata, method = c("medret", "maxint","sum"), value = "into", intensity = "into", filled = TRUE,missing = NA)
feature.table <- cbind(feature1, feature2)

8.写入csv文件

write.csv(feature.table,"D:\\proteomics analysis\\1.csv")

下期再见，有需要其他组学分析的方法可评论，我努力去完成，哈哈哈
如有安装问题，有偿咨询哈，联系方式QQ: 1194452793