生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

使用bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP变异位点数量统计

软件安装

1. conda 安装

conda install bedtools -y

2. 源码安装

wget https://github.com/arq5x/bedtools2/releases/download/v2.28.0/bedtools-2.28.0.tar.gz
tar -zxvf bedtools-2.28.0.tar.gz
cd bedtools2
make

1. 准备染色体大小文件

# 安装python库
pip install pyfaidx

# 使用faidx获取hg19参考基因组序列每条染色体的大小
faidx hg19.fa -i chromsizes > size.genome

# 获取不包含线粒体chrM的大小文件
faidx hg19.fa -i chromsizes |grep -v 'chrM' > size.genome.no.mt

size.genome.no.mt

2. 窗口划分获取BIN文件

bedtools makewindows -g size.genome.no.mt -w 1000000 > windows.bed
  • g sizes.genome是要划分的基因组,格式为两列:染色体、染色体长度
  • w 1000000 为窗口大小为1M
  • windows.bed为输出文件,格式为三列:染色体、区间开始位点、区间结束位点。

windows.bed

3. 常见统计 - 统计fasta序列每个窗口的GC含量

以获取参考基因组hg19.fa序列每1M窗口的GC含量为例

bedtools nuc -fi hg19.fa -bed windows.bed |cut -f 1-3,5 > gc.1M.bed

gc.1M.bed

4. 常见统计 - 统计每个窗口的平均覆盖深度

bedtools coverage -a windows.bed -b Sample.sorted.bam > Sample.depth.txt
  • Sample.sorted.bam 为比对后排序的bam文件
  • windows.bed文件为步骤2获得的窗口划分BIN文件
  • 生成的Sample.depth.txt文件共有7列,分别为序列编号、起始位置、结束位置、reads数、碱基数、区间大小、平均覆盖深度
    Sample.depth.txt

5. 常见统计 - 统计每个窗口的SNP变异位点数量

bedtools coverage -a windows.bed -b Sample.snp.filter.vcf -counts > snp.1M.txt
  • windows.bed文件为步骤2获得的窗口划分BIN文件
  • Sample.snp.filter.vcf为存储过滤后SNP变异位点的VCF文件
  • snp.1M.txt 结果文件中共4列,分别为染色体、窗口起始位置、窗口结束位置和窗口SNP变异位点数量

在这里插入图片描述

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

更多内容请关注公众号【生信与基因组学】,定期更新生信算法和编程、基因组学、统计学、分子生物学、临床检测和深度学习等内容。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
生信技术对SNP(单核苷酸多态性)的分析是现代生命科学研究中重要的一环。SNP是个体基因组中最常见的变异形式,它在个体间的差异中起着重要的作用。生信技术可以用来对SNP进行全基因组的检测和分析。 首先,生信技术能够高效地检测SNP的存在。通过高通量测序技术,可以对整个基因组进行快速、准确的测序,并将结果与基因组参考序列进行比对。通过比对分析,可以发现个体基因组中的SNP位置及其形式。 其次,生信技术可以帮助我们对SNP进行大规模的变异频率分析。通过对大量个体的基因组数据进行统计和分析,可以获得SNP在人群中的分布情况。这有助于我们了解SNP的遗传背景和潜在的疾病相关性。 生信技术还可以通过关联分析或基因关联研究,帮助我们研究SNP与疾病之间的关系。通过对大规模的SNP数据进行关联性分析,可以发现某些SNP与某些疾病之间的关联性。这有助于我们了解SNP对疾病易感性的影响,为疾病的预防和治疗提供科学依据。 此外,生信技术还可以用来进行原位杂交、PCR等实验技术的分析。通过实验技术与生信技术相结合,可以更深入地研究SNP的功能和调控机制。 总之,生信技术是对SNP进行全面、深入分析的有效工具。它的应用有助于我们了解SNP的分布特征、功能和潜在的生物学意义,为疾病研究、精准医学等领域提供重要支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值