如何获得hg38外显子的bed文件?

一、bed文件介绍

bed文件是一种记录基因组不同(功能)区域在基因组上的位置以及其它注释信息的文本文件。它包含了由空格或者tab分隔的不同列,以记录不同的信息,每一行对应一个区域。它最早出现于人类基因组计划中,后被广泛应用。因为它不直接在基因组上进行标记和修改,在使用上更具效率。

bed文件最开始并没有一个标准的格式,因此 UCSC Genome Browser 对它的描述逐渐成为了大家的参考标准。它最少为3列,最多可为12列。bed文件辅助 UCSC Genome Browser 对不同片段进行可视化展示,因此第三行以后的信息多和如何展示这一区域有关,我就不在这里赘述了。以下是前三行的内容

  1. chrom:染色体或者scaffold的名字;

  2. chromStart:在染色体或者scaffold上的起始位置(包含起始位置对应的碱基对),如果是染色体的话,第一个碱基对的位置被标记为0;

  3. chromEnd:在染色体或者scaffold上的终止位置(该终止位置的碱基对不被包含在内);

* scaffold:我们在二代测序中,获得的片段是reads,由reads组装成的为contigs,而contigs进一步组装,就能得到scaffold。

一个最简单的bed文件如下图所示:

  • 7
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
hg38 是人类基因组的参考序列之一,而 BAM(Binary Alignment/Map)和 BED(Browser Extensible Data)是常用的基因组序列比对和注释的文件格式。 BAM 文件是一种用于存储基因组序列比对结果的二进制文件格式,其中包含了比对的详细信息如基因组位置、序列等。而 BED 文件是一种用于存储基因组注释信息的文本文件格式,其中包含了基因组区域的坐标、注释信息等。 在使用 hg38 参考序列进行比对时,由于参考序列的版本可能会更新或存在差异,导致比对结果 BAM 文件的表头可能与原来的 BED 文件不匹配。这种不匹配主要表现在以下几个方面: 1. 染色体名称的不同:BED 文件中使用的染色体命名可能与 BAM 文件中的命名规则不同,例如BED文件用"chr1"表示染色体1,而BAM文件则只用"1"来表示染色体1。 2. 参考序列的长度差异:由于参考序列的更新或差异,导致比对结果的染色体长度与原来的 BED 文件中的区域长度不匹配。 3. 注释信息的缺失:BAM 文件中通常包含详细的比对信息,而 BED 文件中只包含注释信息,因此在比对结果中可能缺少一些注释信息。 为解决这些问题,可以进行一些处理措施: 1. 更新 BED 文件:根据最新的参考序列版本,更新 BED 文件中的染色体命名和区域长度等信息,以便与 BAM 文件匹配。 2. 转换文件格式:将 BAM 文件转换为 BED 文件,去除比对信息,只保留注释信息。可以使用一些工具如samtools或bedtools来进行文件格式的转换。 3. 比对时指定参考序列版本:在进行比对时,明确指定使用的参考序列版本,确保 BAM 文件与原始的 BED 文件一致。 总之,hg38 比对出来的 BAM 表头与原来的 BED 文件可能存在不匹配的情况,需要根据具体情况进行一些处理和调整,以确保文件的正确匹配和一致。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值