使用awk处理多行fasta文件拆分为单个fasta文件，并去掉后缀^M

cv一段代码交差

已于 2022-07-20 15:17:35 修改

阅读量1.3k

点赞数 3

分类专栏：生信文章标签： linux

于 2022-05-16 10:25:15 首次发布

本文链接：https://blog.csdn.net/qq_41856194/article/details/124794334

版权

生信专栏收录该内容

2 篇文章 0 订阅

订阅专栏

大文件：31万个序列（我看的文章里面说一小时处理100条序列，这里我用了半个小时）

代码如下：把mulfa.fasta文件拆分成单个fasta文件

awk '{if($0~/^>/)a=$0; else{system("echo \\"a"\"\n\""$0a)}}' mulfa.fasta

mulfa.fasta文件如下：

生成的单个fasta文件如下：

小文件处理及代码解释如这篇文章所说：http://t.csdn.cn/xTZId

感谢这位大佬

使用上述命令生成单个fasta文件后，在linux里很有可能会出出现一个问题，就是文件名最后会多出两个字符“^M”，这是由于windows和linux系统中换行符不一样所导致的，如下图所示，正确的id名后显示一个问号，使用tab键补齐时显示^M。

参考这位博主的文章：http://t.csdn.cn/sxPXK

在单个fasta文件夹下，运行下述代码，即可。

#!/bin/sh
fall=$(du -a|awk '{print $2}')
count=0
for dirfile in $fall;
do
  count=$(($count+1))
  if [ -d $dirfile ]; then
    dirfile2=$dirfile/
    for ffile in $(ls $dirfile);
    do
        ffile2=$ffile
        mm=$(echo $ffile2|tr -d "\r")
        if [  "$ffile" != "$mm" ];then
          mv $dirfile2$ffile $dirfile2$mm;
        fi
    done
  fi
done

cv一段代码交差

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
使用awk处理多行fasta文件拆分为单个fasta文件，并去掉后缀^M

大文件：31万个序列（我看的文章里面说一小时处理100条序列，这里我用了）代码如下：把mulfa.fasta文件拆分成单个fasta文件awk '{if($0~/^>/)a=$0; else{system("echo \\"a"\"\n\""$0a)}}' mulfa.fastamulfa.fasta文件如下：生成的单个fasta文件如下：小文件处理及代码解释如这篇文章所说：http://t.csdn.cn/xTZId感谢这位大佬......
复制链接

扫一扫