场景描述:现有一个存储序列(DNA序列或者蛋白序列)的Excel文件,将其中序列合并到一个fasta文件中。
- 序列在Excel中的存放格式如图所示:
Excel格式说明:表格的第一行是列名,序列从第二行开始放。第一列放序列名,第二列放序列。此sheet需要是Excel文件的第一个sheet,Excel文件命名为“序列表.xlsx.”
- 在D盘创建文件夹,命名为“1”;
- 代码如下:
library(readxl) setwd("D://1") #设定工作目录 aaa <- read_excel("序列表.xlsx",1) # 创建fasta文件写入流 fasta_file <- file("序列.fasta", "w") for (i in 1:nrow(aaa)) { protein_name <- aaa[i, 1] sequence <- as.character(aaa[i, 2]) writeLines(paste(">", protein_name), fasta_file) writeLines(sequence, fasta_file) } # 关闭文件流 close(fasta_file)
※:需要安装过“readxl”包
-
运行代码,将在D://1中生成“序列.fasta”文件,任务完成。