PRS之后的一个小问题
在计算完PRS之后,如果选择的是全部阈值(或者设定的阈值有多个)的话,PRS_allscore.prisice文件中就可以看到每个阈值对应的p值(即这个阈值下计算的PRS与表型是否显著),和通过这个阈值的SNP的数量。
比如我基于候选基因去做GRS,会得到下图,我感兴趣的是10的-6次方下计算所得的PRS,可以看到仅仅纳入了2个SNP(Num_SNP)。如果我想知道这两个SNP是谁?????
首先,这两个SNP是即在base中的p值小于10的-6次方,又存在于我们给的target的SNP中,因此我们分别取出这两部分的SNP,取交集即可得到:
1.把文件保存成可读格式, 并读入R中
对于target,我们应该要用到的是bim文件,先把它保存成txt文件;
对于base文件同样的命令保存成txt,然后在R中提取出p值小于10的-6次方的部分,保存为txt
sort -o targetSNP.txt target.bim
读入R中,要注意这里用的分割符号是制表符,如果不加参数**sep = “\t”**的话,R会默认把txt文件读成一列
targetSNP <- read.table("targetSNP.txt", sep = "\t")
baseSNP <- read.table("SCZ_eas_1e-6", sep = "\t")
2.R语言指定列取交集
# 两个数值向量取交集
intersect(x=1:4, y = 2:6)
# 两个字符向量取交集
intersect(x=letters[1:4], y = letters[2:6])
# 混合向量
intersect(x=c("a", "b", "c", 4), y = c("a", 2, 3, 4))
这个案例中用的是SNP的rs号,所以用intersect函数
overlap <- intersect(x=targetSNP$V2, y = baseSNP$SNP)
这个问题就解决了!
3.猜你喜欢
R语言取并集union
# 两个数值向量取并集
union(x=1:4, y = 2:6)
# 两个字符向量取并集
union(x=letters[1:4], y = letters[2:6])
# 混合向量
union(x=c("a", "b", "c", 4), y = c("a", 2, 3, 4))
R语言找两个数据集的不同setdiff,只保留x或y中不同的元素
setdiff(x, y)
x = 1:4
y = 2:6
# 找x中不同于y的元素
setdiff(x, y)
# 找y中不同于x的元素
setdiff(y, x)