先描述我的项目内容:
- 将50bp长的DNA序列进行单次比对(linux环境,算法gapmis已经写好);
- 500万个基因序列文件单次比对,会耗费大量I/O时间。为此希望将1万条基因数据保存在一个AT50_1_0.fasta文件中,每一条基因数据单独保存为一行,如下图所示:
- 依次提取各行数据,并调用比对算法gapmis,输出每一行的比对结果。
“将包含一条基因数据的文件依次进行比对,转化成二维数据进行比对”,直接目前存在的问题:
- linux环境下,是否可以编写c循环程序:对.fa中的文件按行读取?
- “.fa”文件格式说明:按照“>”标识来界定是否为一条基因数据。如果只有一个“>”,判定只存在一条基因数据;
- gapsmis程序在linux环境下的比对命令为:"./gapsmis -a a.fasta -b b.fasta" (将序列a与序列b进行比对)。换句话说:我们需要修改gapsmis程序接口,将命令中的“文件名”输入形式,转换为“基因字符串”输入形式。
(具体解决