分享一些在生物信息学和Linux环境中常用的命令和操作,主要用于处理序列数据、管理虚拟环境、监控和终止任务、以及文本处理。以下是对这些内容的总结:
分析时需要去掉一些序列,可以使用seqkit:
1.去掉单个序列:seqkit grep -v -p "gene2" gene.fa>nogene2.fa
2.去掉一批序::seqkit grep -v -f geneid.txt gene.fa >nogeneid.fa
conda的基本命令
1.查看虚拟环境列表,此时出现列表的同时还会显示其所在路径:conda env list
2.删除环境:conda env remove -p 要删除的虚拟环境路径
查杀掉正在运行的任务
1.ps -ef | grep XXX.sh | grep -v grep | awk '{print $2}' | xargs kill
2.ps -aux | grep 正在运行的任务
批量循环
1.for ((i=1306;i<=9868;i++)) do: cat OG000*.fa |grep '>' $i > OG000*.fa: done
2.cat detail.xls | while read line; do arr=($line);echo -e "Prefix=${arr[1]} Protein=${arr[3]} "; done > xxx.sh
去掉空格:date | sed s/[[:space:]]//g >> ll.txt (重定向使用>>写入,直接修改使用sed -i)
将多列合并为一列:awk '{for(i=1;i<=NF;i++)print $i}' filename.txt > newfilename.txt
删除前六个字符:sed -i 's/length=.{6}//' genemark.gff3
在master投递任务的命令:nohup perl qsub_sge_plus.pl --interval 5 --maxproc 2 --convert no --resource vf=80G --queue cns.q XXX.sh &
删除软链接失效的文本:find -L 文件位置 -type l -delete
tar.gz解压:tar -zxvf filename.tar.gz