R语言-生物序列处理——找出fasta文件中所有的重复序列

场景描述:现有一个存储多条序列(DNA序列或者蛋白序列)的fasta文件,我们需要将其中重复项全部找出来。

fasta文件示例:

  1. 在D盘创建文件夹,命名为“1”,将fasta文件重命名为“1.fasta”放于其中;
  2. library(stringr)
    library(Biostrings)
    library(readxl)
    setwd("D://1")   #设定工作目录
    fasta_file <- "1.fasta"
    sequences <- readAAStringSet(fasta_file)
    duplicate_indices <- duplicated(sequences)
    s1 <- sequences[duplicate_indices]
    s2 <- unique(s1)
    
    for(i in as.character(s2)){
      
      aa <- which(sequences == i)      
      print(names(sequences)[aa])# 把重复项按行打印出来
    }

  3. 运行代码,将按行打印出所有重复项。如下图:

            xulie1,xulie4,xulie5都是相同的,就在一行中显示出来。

             xulie2,xulie6是相同的,在另一行显示出来。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值