Linux下检索基因数据(含UCSC查询)

Linux菜鸟,遇到命令就查,不懂就问,挺好的。

最近要在gtf中检索基因,已知基因名称和位置,两种方法,反正都能得到结果,不知道哪种方法好用

1、先cat再grep

cat *.gtf|grep "ENSG00000121957"|grep "108896963"

2、直接grep

grep ENSG00000121957 *.gtf|grep "108896963"

3、如果是在多个文件夹搜索关键字,显示文件位置,可以

grep '字符串'  *_文件夹 -Rn

$grep -B 2 'parttern' inputfile //打印匹配行的前5行

好的,得到我要的结果了

chr1 HAVANA exon 108896864 108896963 . + . transcript_id "ENST00000446797.1"; gene_id "ENSG00000121957.14"; gene_name "GPSM2";

chr1 HAVANA CDS 108896864 108896963 . + 1 transcript_id "ENST00000446797.1"; gene_id "ENSG00000121957.14"; gene_name "GPSM2";

下一步,还是得去查一下序列呀,个人不太喜欢NCBI,UCSC genome browser更好用一些

https://genome-asia.ucsc.edu/cgi-bin/hgGateway?redirect=manual&source=genome.ucsc.edu

直接录入

chr1:108896864-108896963,然后在最头头的view上,点开dna,MAC好难截图呀,回到Windows再上图

从USCS常用的两个功能,blat和genome browser

有时候需要把blat结果在一些序列里查询,我觉得这个python子串匹配的代码超级好用呀

line="TGCTACTCTGGAGGCTGAGGCAGGAGGATTGCTTGAGCCCAGGAGTTTGAGACTTGCCTGGGCAATATAGTGAGACTCCCATCTCTGTAACGAACATGAAAAGAATGGTCTTCTCTCATGCTTATCAAATTTTCCTCCATCGAGTCATAT"
patt="TGCTACTCTGGAGGCTGAGGCAGGAGGATTGCTTGAGCCCAGGAGTTTGA"
pattern = re.compile(patt)
result = pattern.findall(line)
print result

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值