注释 bed 文件中 feature 的基因名

需求

现有一个 bed 文件,想要知道 feature 对应的基因名(gene symbol)等注释内容。

解决方案

方法1. 使用 UCSC Table browser

以人类为例,依次设定以下选项:
clade: Mammal
genome: Human
assembly: GRch37/hg19 #基因组版本
group: Genes and Gene Prediction Tracks
track: UCSC Genes
table: knowGene
region: 点击 defined regions 按钮;粘贴或上传 bed 文件(注意网页上的格式要求);点击 submit 按钮
output format: selected fields from primary and related tables
点击 get output 按钮;选择 hg19.kgXref 表中的 geneSymbol 字段;点击 get output 按钮

方法2. 使用 bedtools intersect

下载注释数据

本文所用注释文件下载自 UCSC Table Browser 。具体过程为:
clade: Mammal
genome: Human
assembly: GRch37/hg19
group: Genes and Gene Prediction Tracks
track: UCSC Genes
table: knowGene
region: genome
output format: selected fields from primary and related tables
output file: gs.anno #将选择的数据输出到 gs.anno 文件, 默认输出到浏览器
点击 get output 按钮;选择 hg19.knownGene 表中的 chrom, txStart, txEnd 字段,hg19.kgXref 表中的 geneSymbol 字段;点击 get output 按钮

使用 bedtools intersect 求交集

#将注释文件中空字段填充内容,否则 bedtools 会报错
awk -v OFS='\t' '{if($4=="") $4="na"}1' gs.anno>gs.anno.fillna
#取交集
bedtools intersect -a in.bed -b gs.anno.fillna -wb

要点

获取带有基因名的基因组注释文件。人类基因组的注释文件可以到 USCS 获取。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值