minor base提取代码

最新推荐文章于 2023-10-30 16:28:55 发布

J_Fun

最新推荐文章于 2023-10-30 16:28:55 发布

阅读量456

点赞数

分类专栏： code

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/J_Fun/article/details/58587587

版权

code 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

从全基因组minor alelle中提取基因区minor base

#此类的txt文件，若直接用read.csv导入，并不能进行行列操作(非[i,j])，因为此时的数据是由\t间隔的字符串；

#用strsplit("file","symble")命令将向量中的每个元素间隔开；

#用do.call(rbind/cbind,file)来将向量转换为行列的格式，便于之后的操作；

#用which(condition)能将文件中复合条件的行提取出来；

#在linux下对gff文件进行初步处理；(在操作数据文件前，先熟悉文件格式和各个变量的含义)

#提取minoralelle中的minorbase：

chr1=strsplit(chr,"\t")

chr2=do.call(rbind,chr1)

x=nrow(chr2)

for(i in 1:x){
lin=chr2[i,]

chrom=chr2[i,3]

pos=chr2[i,4]

C1=length(which((lin=="CC"))) #此四行能再进一步简化

T1=length(which((lin=="TT")))

A1=length(which((lin=="AA")))

G1=length(which((lin=="GG")))

a=c(C1,G1,T1,A1)

b=which(a/500<=0.2&a/500!=0)

if(length(b)!=0){

cat(chrom,pos,b,"\n",append=TRUE,file="improvesnp.txt")

}

}

(#之后用R处理时，改进用cat(content,"\n",append=TRUE,file="")命令来将每次循环的结果分别输出，"\n"换行符，append=TRUE将输出内容接在末尾)

(#通过cat的改进，使得代码运算时间相较之前减少了10X，且能即时查看当前循环输出文件的结果)

#将提取出来的minorbase与gff基因注释文件的位置进行比较：

chr1=do.call(rbind,strsplit(readLines("egchr1.txt")," "))

chr2=read.csv("pos1.txt",stringsAsFactors = F)

x=nrow(chr1)

y=nrow(chr2)

for(i in 1:x){

lin1=as.numeric(chr1[i,2])

for(j in 1:y){

if(lin1>=chr2[j,2] & lin1<=chr2[j,3]){

cat(chr1[i,],"\n",append = TRUE,file="snpsingene.txt")

}

}

}

(#耗时较长，改进策略1'将命令拆分成多个任务同时进行；2'直接对基因组注释的位置进行操作比对；)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
minor base提取代码

从全基因组minor alelle中提取基因区minor base#此类的txt文件，若直接用read.csv导入，并不能进行行列操作(非[i,j])，因为此时的数据是由\t间隔的字符串；#用strsplit("file","symble")命令将向量中的每个元素间隔开；#用do.call(rbind/cbind,file)来将向量转换为行列的格式，便于之后的操作；#用which(
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。