Linux文件提取信息学习

本文详细介绍了如何使用grep和awk命令在Homo_sapiens.GRCh38基因组文件中搜索特定词、提取特定列、处理fastq序列,以及进行文件格式转换,包括行数统计、列选择和合并等操作。
摘要由CSDN通过智能技术生成

grep搜索特定词

查看含有如下ENSG的行

grep ENSG00000282253.1 Homo_sapiens.GRCh38.cdna.all.fa 
head -7 Homo_sapiens.GRCh38.cdna.all.fa 

 awk提取特定列

第四行:

awk '{print $4}' Homo_sapiens.GRCh38.cdna.all.fa

 

第三行

awk '{print $3}' Homo_sapiens.GRCh38.cdna.all.fa

 去掉fastq序列保存到ridfa.txt

grep ">" Homo_sapiens.GRCh38.cdna.all.fa > ridfq.txt

只要前四行一次完成 

grep '>' Homo_sapiens.GRCh38.cdna.all.fa |awk 'NF = 4' > ridfq.txt

去除第二列

 cut -d' ' -f1,3-  ridfq.txt > m2.txt

去除第二行不需要的前缀

sed -i 's/chromosome:GRCh38://g' m2.txt 

awk以冒号和空格分隔

awk -F ':| ' '{print $1,$2,$3,$4,$5,$6,$7,$8,$9,$10}' m2.txt 

#重新输入m2.txt文件,先不要去后缀???有这种行的出现。

awk -F ' ' '{print $2}' m2.txt | awk -F ':' '{print $(NF-2),$(NF-1)}'
#以空格为分隔提取第二列作为输入
#以:为分隔符打印倒数第3和倒数第2列,即start&end

grep -c '' se.txt
grep -c '' m2.txt
##行数相同

awk '{print $1,$3}' m2.txt  > col13.txt
sed -i 's/gene://g' col13.t
sed -i 's/>//g' col13.txt

paste col13.txt se.txt > merged.txt
awk -F ' ' '{print $1}' col13.txt | awk -F '.' '{print $1}' > dropdot.txt
 paste dropdot.txt col13.txt > merged.txt
paste merged.txt se.txt > fina.txt

 

sed -i 's/^\([^.]*\)\.[^ ]* /\1 /' Homo_sapiens.GRCh38.cdna.all.deldot.fa 

 

去掉序列取第一列

grep ">" Homo_sapiens.GRCh38.cdna.dotdel.all.fa | awk '{print $1}' > Homo_sapiens.GRCh38.cdna.first.fa

 去掉>

 sed -i 's/^>//' Homo_sapiens.GRCh38.cdna.first.fa 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值