找出纳入PRS/GRS计算的SNP是哪些？_工具变量prs和snp-CSDN博客

本文链接：https://blog.csdn.net/upyours00/article/details/115348722

PRS之后的一个小问题

在计算完PRS之后，如果选择的是全部阈值（或者设定的阈值有多个）的话，PRS_allscore.prisice文件中就可以看到每个阈值对应的p值（即这个阈值下计算的PRS与表型是否显著），和通过这个阈值的SNP的数量。

比如我基于候选基因去做GRS，会得到下图，我感兴趣的是10的-6次方下计算所得的PRS，可以看到仅仅纳入了2个SNP（Num_SNP）。如果我想知道这两个SNP是谁？？？？？

首先，这两个SNP是即在base中的p值小于10的-6次方，又存在于我们给的target的SNP中，因此我们分别取出这两部分的SNP，取交集即可得到：

1.把文件保存成可读格式, 并读入R中
对于target，我们应该要用到的是bim文件，先把它保存成txt文件；
对于base文件同样的命令保存成txt，然后在R中提取出p值小于10的-6次方的部分，保存为txt

sort -o targetSNP.txt target.bim

读入R中，要注意这里用的分割符号是制表符，如果不加参数**sep = “\t”**的话，R会默认把txt文件读成一列

targetSNP <- read.table("targetSNP.txt", sep = "\t")
baseSNP <- read.table("SCZ_eas_1e-6", sep = "\t")

2.R语言指定列取交集

# 两个数值向量取交集
intersect(x=1:4, y = 2:6)

# 两个字符向量取交集
intersect(x=letters[1:4], y = letters[2:6])

# 混合向量
intersect(x=c("a", "b", "c", 4), y = c("a", 2, 3, 4))

这个案例中用的是SNP的rs号，所以用intersect函数

overlap <- intersect(x=targetSNP$V2, y = baseSNP$SNP)

这个问题就解决了！

3.猜你喜欢
R语言取并集union

# 两个数值向量取并集
union(x=1:4, y = 2:6)

# 两个字符向量取并集
union(x=letters[1:4], y = letters[2:6])

# 混合向量
union(x=c("a", "b", "c", 4), y = c("a", 2, 3, 4))

R语言找两个数据集的不同setdiff，只保留x或y中不同的元素

setdiff(x, y)
x = 1:4
y = 2:6
# 找x中不同于y的元素
setdiff(x, y)
# 找y中不同于x的元素
setdiff(y, x)