gff文件当中存储了基因组当中所有基因的注释信息,如果想得到基因组当中所有基因的位置信息可以利用awk命令批量的提取,命令如下:
$ grep -v '#' Arabidopsis_thaliana.TAIR10.41.gff3|awk -F "[\t=:;]" 'BEGIN{OFS="\t"}$3=="gene"{print $1,$4,$5,$10}' |head
1 3631 5899 AT1G01010
1 6788 9130 AT1G01020
1 11649 13714 AT1G01030
1 23121 31227 AT1G01040
1 31170 33171 AT1G01050
1 33365 37871 AT1G01060
1 38444 41017 AT1G01070
1 44970 47059 AT1G01080
1 47234 49304 AT1G01090
1 49909 51210 AT1G01100
linux使用视频课程:《linux系统使用生物信息》
更多生物信息课程:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析