DGV结构变异数据库下载及bedToBigBed+bigBedToBed转换

DGV结构变异数据库通常用来过滤检测的CNV、Indels等结构变异信息,以达到去除假阳性的目的。

下载的bedToBigBed和bigBedToBed为二进制程序,已编译好,可以直接使用。

1. 基础软件和文件下载

# bedToBigBed下载
wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/bedToBigBed
chmod a+x bedToBigBed


# bigBedToBed下载
wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/bigBedToBed
chmod a+x bigBedToBed


# 下载hg19基因组大小文件
wget https://genome.ucsc.edu/goldenPath/help/hg19.chrom.sizes

# hg38
wget https://genome.ucsc.edu/goldenPath/help/hg38.chrom.sizes

2. DGV数据库hg19和hg38版本下载和转换

UCSC DGV 数据下载地址: https://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&hgta_group=varRep&hgta_track=dgvPlus&hgta_table=dgvGold&hgta_doSchema=describe+table+schema

结果文件dgvMerged.hg19.bed,存储了共计826661条结构变异(CNV, Inversion, Indels)信息

2.1 bigBed转bed文件

########## hg38版本下载和转换 ##########
# 使用bigBedToBed进行bigBed转bed
./bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/dgv/dgvMerged.bb stdout > dgvMerged.hg38.bed

########## hg19版本下载和转换 ##########
./bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg19/dgv/dgvMerged.bb stdout > dgvMerged.hg19.bed

less -S dgvMerged.hg19.bed

dgvMerged.hg19.bed

统计结构变异类型

cat dgvMerged.hg19.bed|cut -f10|sort|uniq

SV类型

2.2 bed转bigBed文件

bedToBigBed程序需要输入三个变量,第一个是**.bed文件路径**,第二个是参考基因组大小文件.chrom.sizes路径,第三个是**.bigBed(.bb)文件输出路径**。

# 提取chr16染色体信息为例
cat dgvMerged.hg19.bed |grep '^chr16' > dgvMerged.hg19.chr16.bed

# # .bed文件需要sort -k1,1 -k2,2n
sort -k1,1 -k2,2n dgvMerged.hg19.chr16.bed > dgvMerged.hg19.chr16.sorted.bed

# 转换
./bedToBigBed dgvMerged.hg19.chr16.sorted.bed hg19.chrom.sizes dgvMerged.hg19.chr16.bb
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值