提取gtf 里信息

下载gtf

wget ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz

提取位置信息

grep -v '#' Homo_sapiens.GRCh37.75.gtf | grep "protein_coding" | awk -F "[\t=:;]"  \ 
'BEGIN{OFS="\t"}$3=="gene"{print $1,$4,$5,$10}' > all_gene_positions.txt

R 处理

all_gene <- read.csv('./all_gene_positions.txt',sep = '\t', header = FALSE)
all_gene <- separate(all_gene, col = V4, into = c('none', 'none2', 'gene'), sep = ' ')
all_gene <- select(all_gene, -c(4,5))
colnames(all_gene) <- c('chr', 'start', 'end', 'gene')

write.table(all_gene, './gene_position_clean.txt', sep = '\t', quote = FALSE, row.names = FALSE)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值