R语言-生物序列处理——找出fasta文件中所有的重复序列

最新推荐文章于 2024-10-04 13:44:40 发布

达芬奇文西

最新推荐文章于 2024-10-04 13:44:40 发布

阅读量468

点赞数 10

文章标签： r语言开发语言

本文链接：https://blog.csdn.net/TW756/article/details/141686402

版权

场景描述：现有一个存储多条序列（DNA序列或者蛋白序列）的fasta文件，我们需要将其中重复项全部找出来。

fasta文件示例：

在D盘创建文件夹，命名为“1”，将fasta文件重命名为“1.fasta”放于其中；

library(stringr)
library(Biostrings)
library(readxl)
setwd("D://1")   #设定工作目录
fasta_file <- "1.fasta"
sequences <- readAAStringSet(fasta_file)
duplicate_indices <- duplicated(sequences)
s1 <- sequences[duplicate_indices]
s2 <- unique(s1)

for(i in as.character(s2)){
  
  aa <- which(sequences == i)      
  print(names(sequences)[aa])# 把重复项按行打印出来
}