以fasta为例,刷一波R语言小技巧

1.生成一组示例序列

先生成一条序列,并且把生成序列的代码写成个函数,函数的输入数据是序列的长度:

x= c("A","T","C","G")
ms <-function(n){
  paste(sample(x,n,replace = TRUE),collapse = "")
} 
ms(25)
#> [1] "AAAGGTAGGTGTTGTAGAACTATGT"

然后生成一组示例数据,例子是10个序列,每个长度25:

知识点一:用sample和paste0生成随机字符串
paste0和sample都是基础函数,但是用处很大,sample表示抽样,加上replace = TRUE就是有放回的抽样,paste0则表示将结果无缝连接起来,这不就成了个序列嘛~

知识点二
用数据结构(例如向量/列表)储存for循环多次产生的结果,这些结果成为向量/列表里的元素。

y = c()
for(i in 1:10){
  y[[i]] = ms(25)
}
y
#>  [1] "GACCGCCTTATAGCAGTTAGTGTAG" "GGAAGCGTCATTCGAACTATGCCGG"
#>  [3] "AACAGTTCCGTCCACTTGGCCATTG" "TACCGCCTTTGTTAGCCGTGTGGCT"
#>  [5] "ATCTCCAGACTTTATAAATCTATCA" "GTGTGGTATTATCGTGATCTCCACG"
#>  [7] "GAGCACAGACGCGCTAGAGAATTGA" "GTTTTACACGCATCAGTGGGTAAAG"
#>  [9] "TGGCAGTGTCTCTCTAGCGTGATCT" "AGGCCATGGGTTGGGAGTTACTTAT"

如果你有真实的序列,直接用readLines()读进来,as.character()变成字符串就好。

2.把序列成fasta格式

最简单的fasta格式是第一行大于号加序列名称,第二行是序列。

把字符串序列变成fasta格式,可以这样

方法一
x1 = paste0("seq",1:10)
res <- paste0(">",x1,"\n",y)
res
#>  [1] ">seq1\nGACCGCCTTATAGCAGTTAGTGTAG" 
#>  [2] ">seq2\nGGAAGCGTCATTCGAACTATGCCGG" 
#>  [3] ">seq3\nAACAGTTCCGTCCACTTGGCCATTG" 
#>  [4] ">seq4\nTACCGCCTTTGTTAGCCGTGTGGCT" 
#>  [5] ">seq5\nATCTCCAGACTTTATAAATCTATCA" 
#>  [6] ">seq6\nGTGTGGTATTATCGTGATCTCCACG" 
#>  [7] ">seq7\nGAGCACAGACGCGCTAGAGAATTGA" 
#>  [8] ">seq8\nGTTTTACACGCATCAGTGGGTAAAG" 
#>  [9] ">seq9\nTGGCAGTGTCTCTCTAGCGTGATCT" 
#> [10] ">seq10\nAGGCCATGGGTTGGGAGTTACTTAT"
writeLines(res)
#> >seq1
#> GACCGCCTTATAGCAGTTAGTGTAG
#> >seq2
#> GGAAGCGTCATTCGAACTATGCCGG
#> >seq3
#> AACAGTTCCGTCCACTTGGCCATTG
#> >seq4
#> TACCGCCTTTGTTAGCCGTGTGGCT
#> >seq5
#> ATCTCCAGACTTTATAAATCTATCA
#> >seq6
#> GTGTGGTATTATCGTGATCTCCACG
#> >seq7
#> GAGCACAGACGCGCTAGAGAATTGA
#> >seq8
#> GTTTTACACGCATCAGTGGGTAAAG
#> >seq9
#> TGGCAGTGTCTCTCTAGCGTGATCT
#> >seq10
#> AGGCCATGGGTTGGGAGTTACTTAT

知识点三
writeLines可以将字符串中的特殊符号"\n","\t"等显示出来成为它本来的样子。

方法二

(其实写这一篇只是为了举个例子说说apply(),结果跑偏了。)

df <- data.frame(V1=paste0("seq",1:10),V2=y)

res2 = apply(df,1,function(x){
  paste0(">",x[1],"\n",x[2])
})

res2
#>  [1] ">seq1\nGACCGCCTTATAGCAGTTAGTGTAG" 
#>  [2] ">seq2\nGGAAGCGTCATTCGAACTATGCCGG" 
#>  [3] ">seq3\nAACAGTTCCGTCCACTTGGCCATTG" 
#>  [4] ">seq4\nTACCGCCTTTGTTAGCCGTGTGGCT" 
#>  [5] ">seq5\nATCTCCAGACTTTATAAATCTATCA" 
#>  [6] ">seq6\nGTGTGGTATTATCGTGATCTCCACG" 
#>  [7] ">seq7\nGAGCACAGACGCGCTAGAGAATTGA" 
#>  [8] ">seq8\nGTTTTACACGCATCAGTGGGTAAAG" 
#>  [9] ">seq9\nTGGCAGTGTCTCTCTAGCGTGATCT" 
#> [10] ">seq10\nAGGCCATGGGTTGGGAGTTACTTAT"

writeLines(res2)
#> >seq1
#> GACCGCCTTATAGCAGTTAGTGTAG
#> >seq2
#> GGAAGCGTCATTCGAACTATGCCGG
#> >seq3
#> AACAGTTCCGTCCACTTGGCCATTG
#> >seq4
#> TACCGCCTTTGTTAGCCGTGTGGCT
#> >seq5
#> ATCTCCAGACTTTATAAATCTATCA
#> >seq6
#> GTGTGGTATTATCGTGATCTCCACG
#> >seq7
#> GAGCACAGACGCGCTAGAGAATTGA
#> >seq8
#> GTTTTACACGCATCAGTGGGTAAAG
#> >seq9
#> TGGCAGTGTCTCTCTAGCGTGATCT
#> >seq10
#> AGGCCATGGGTTGGGAGTTACTTAT

identical(res,res2)
#> [1] TRUE

知识点四
apply(X, MARGIN, FUN, …)其中X是数据框/矩阵名;MARGIN为1表示取行,为2表示取列,FUN是函数。强大的apply配上自定义函数,可以做很多事情。
判断两个变量是否完全相等,用identical(),不用 ==

3.后续

可以合并

如果你需要合成一整个字符串,那也简单。

resl=paste(res,collapse = "\n")
resl
# [1] ">seq1\nCCTGTCTAGTCCGAGATATGGTAAG\n>seq2\nATGTGAAGGAACACGCATGAAAAAG\n>seq3\nAGGGCTATCCGGGGAAGAAATTAGC\n>seq4\nACGCTATATCGCAGCATGTCTCTAG\n>seq5\nATCAGCCACGTCACAACGGTGGCAT\n>seq6\nACTACTACTGCTAAAGTAGGCTGCT\n>seq7\nGGTTCCATTGTATGACATAACAAAC\n>seq8\nTGACAGAACGAAGTCATGATACCGA\n>seq9\nATTTGCCTGTGTCCTCGAGAGTAGT\n>seq10\nCTCTCAGCGACGGGCGGTGAAAGCT"

writeLines(resl)
#> >seq1
#> GACCGCCTTATAGCAGTTAGTGTAG
#> >seq2
#> GGAAGCGTCATTCGAACTATGCCGG
#> >seq3
#> AACAGTTCCGTCCACTTGGCCATTG
#> >seq4
#> TACCGCCTTTGTTAGCCGTGTGGCT
#> >seq5
#> ATCTCCAGACTTTATAAATCTATCA
#> >seq6
#> GTGTGGTATTATCGTGATCTCCACG
#> >seq7
#> GAGCACAGACGCGCTAGAGAATTGA
#> >seq8
#> GTTTTACACGCATCAGTGGGTAAAG
#> >seq9
#> TGGCAGTGTCTCTCTAGCGTGATCT
#> >seq10
#> AGGCCATGGGTTGGGAGTTACTTAT
还可以导出
write.table(resl,
            file = "test.fasta",
            row.names = F,
            quote = F)

知识点五
字符串也可以导出的。想要让导出的文件没引号,就加quote = F,导出文件后缀可以改,改成fasta没关系的,因为是纯文本,后缀不改变本质,只是决定了这文件在window电脑上的默认打开方式而已。

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
要在R语言中输出fasta文件,你可以使用Bioconductor包中的Biostrings库。首先,你需要将你的序列数据存储在一个DNAStringSet对象中。然后,你可以使用writeXStringSet函数将DNAStringSet对象写入fasta文件。 下面是一个示例代码: ```R library(Biostrings) # 创建一个DNAStringSet对象 sequences <- DNAStringSet(c("ATCG", "GCTA", "CGAT")) # 将DNAStringSet对象写入fasta文件 writeXStringSet(sequences, file = "output.fasta", format = "fasta") ``` 在这个示例中,我们首先创建了一个包含三个序列的DNAStringSet对象。然后,我们使用writeXStringSet函数将DNAStringSet对象写入名为output.fastafasta文件中。 请注意,你需要先安装Bioconductor包和Biostrings库,可以使用以下命令进行安装: ```R if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("Biostrings") ``` 希望这可以帮助到你!\[1\] #### 引用[.reference_title] - *1* *2* [R语言读入FASTA 蛋白质序列文件 & 生成SeqLogo](https://blog.csdn.net/qq_35008279/article/details/90073800)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [R语言读取Excel文件](https://blog.csdn.net/cl1143015961/article/details/50035529)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小洁忘了怎么分身

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值