生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

文章介绍了如何使用WisecondorX进行拷贝数变异(CNV)分析,包括conda和pip安装方法,从比对文件(sam/bam/cram)转换成npz格式,建立参考,以及CNV变异检测。Zscore的设定用于过滤CNV,重要输出文件包括ID_aberrations.bed和ID_statistics.bed,同时软件提供可视化结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述使用wisecondorX可进行拷贝数变异CNV的分析,作者在论文中对比了多种软件的使用效果,可自行根据自己的项目需要,判断是否使用。

在这里插入图片描述

wisecondrX安装

# conda安装
conda install -f -c conda-forge -c bioconda wisecondorx
conda install bwa

# pip安装:
pip install -U git+https://github.com/CenterForMedicalGeneticsGhent/WisecondorX

使用wisecondrX做CNV分析

step1 将比对文件(sam/bam/cram)转换成npz格式

作者文章建议使用bowtie2进行比对,本人采用bwa进行的比对,并且对于比对后的bam文件不要进行过滤。

# bwa比对,以单端测序SE为例;双端测试可以行搜索
bwa mem -t 20 /public/reference/hg19.fasta sample_L01_F1.fq | samtools view -bSh - | samtools sort -@ 10 - -o ./sample.bam

# 将比对得到的bam文件转换为npz格式文件
WisecondorX convert sample.bam sample.npz

optional arguments:
--binsize BINSIZE     Bin size (bp) (default: 5000.0)

step2 建立reference

至少需要50例健康人样本来建立reference,并且尽量保证男性和女性的比例为1:1,bin的长度可以设置不同的梯度,建议10kb~100kb之间。NIPT使用100kb bins进行评估,因为所有纳入NIPT畸变的宽度都比较大(至少5Mb)。

WisecondorX newref --cpus 20 --binsize 100000 control/*npz reference_100kb.npz
WisecondorX newref --cpus 20 --binsize 50000 control/*npz reference_50kb.npz
WisecondorX newref --cpus 20 --binsize 10000 control/*npz reference_10kb.npz

Create a new reference using healthy reference samples
optional arguments:
--yfrac YFRAC         Use to manually set the y read fraction cutoff, which defines gender (default: None)

CNV变异检测

通过设置Zscore cutoff来过滤CNV,通常我会将Zscore设置为5。

WisecondorX predict --plot --bed sample.npz reference_100kb.npz

optional arguments:
--zscore ZSCORE       z-score cut-off for aberration calling. (default: 5)
--gender {F,M}        Force WisecondorX to analyze this case as a male (M) or a female (F) (default: None)
--add-plot-title      Add the output name as plot title (default: False)

分析结果中比较重要的两个文件是ID_aberrations.bedID_statistics.bed
ID_aberrations.bed文件中包含了拷贝数异常的CNV片段,格式如下:
在这里插入图片描述zscore列是Zscore值,一般在cutoff值附近的 是可疑点,需要重点关注。type列是表示gain重复或loss缺失。
ID_statistics.bed文件中包含整条染色体的信息,包括ratioZscore,如果关注非整倍体变异的话可以仔细看一下这个文件。
分析的时添加plot参数,WisecondorX还会生成可视化的结果,非常直观,包括全基因组和单条染色体的图形。
在这里插入图片描述

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值