测序文件的批量改名
公司返回的测序文件多为下图所示,可我们不需要那么长的文件名,我们只需要其中的一部分或者重新命名为我们想要的。
将测序文件名改成这样
我们只需使用如下命令即可完成!
#首先进入到你存放测序文件的文件夹中
cd seq
#将所有.fa.gz文件名写入到一个.txt文件中,并命名为metadata.txt。
ls *.fq.gz > metadata.txt
Excel编辑列表,第二行为最终命名方式
打开metadata.txt文件,Ctrl + A全选后,复制到一个新的Excel表格中。如下图所示:
使用Excel表格中的数据-分列功能将其分离。具体步骤:Excel–数据—分列–分隔符号
结果如图
制作我们想要的名字,将第一列复制给第二列,同样使用数据-分列–分隔符号–其他【_】–完成。此时,将第二列再复制一遍,并保存到第三列(保护列)。
将其另存为为.txt格式,并放到seq文件夹目录下。
# 转换行尾换行符
sed -i 's/\r//' metadata.txt
# 检查手动命名列2是否唯一
cut -f 2 metadata.txt|wc -l
cut -f 2 metadata.txt|sort|uniq|wc -l
# 如果第二次结果是第一次的一办,则命名非冗余
# 可选移动mv,复制cp,硬链ln,或软链ln -s
# 此处使用复制cp
awk '{system("cp "$1"_R1.fq.gz "$2"_R1.fq.gz")}' metadata.txt
awk '{system("cp "$1"_R2.fq.gz "$2"_R2.fq.gz")}' metadata.txt