CNVcaller使用小记

寤寐花开

已于 2023-07-31 18:18:38 修改

阅读量744

点赞数 1

分类专栏：生信分析文章标签： python numpy

于 2023-02-24 23:14:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42680661/article/details/129209672

版权

生信分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、CNVcaller

1.1 前置环境：

win11的Ubuntu系统为分析平台

perl

python3

blasr

samtools

python 包：click、numpy==1.20.0、scikit-learn==0.22.2 、pandas==1.2.0

建议：pip intall click numpy scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

Tips: CNVcaller更新代码：

1. 将Genotype.py中的

calinski_harabaz_score 全部替换为 calinski_harabasz_score

2. 分析过程中所有输入输出文件都使用绝对路径

1.2 软件地址

GitHub - JiangYuLab/CNVcaller

下载压缩包：https://github.com/JiangYuLab/CNVcaller/archive/refs/heads/master.zip

解压缩：

改文件路径:

CNV.Discovery.sh和Individual.Process.sh

二、Call CNV

2.1 参考基因组准备

以牦牛为例：

https://ftp.ensembl.org/pub/release-109/fasta/bos_grunniens/dna/Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa.gz

解压缩：Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa

2.1.1 基因组索引

perl CNVcaller-master/bin/CNVReferenceDB.pl Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa -w 1000

输出：referenceDB.1000

2.1.2 reference.fa.sa 自己生成dup文件

1）sawriter Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa

输出 Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa.sa （与bwa index 生成的.sa不一样，注意区分文件目录）

2）python 0.1.Kmer_Generate.py Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa 1000 kmer.fa

3）blasr kmer.fa Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa --sa Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa.sa --out kmer.aln -m 5 --noSplitSubreads --minMatch 15 --maxMatch 20 --advanceHalf --advanceExactMatches 10 --fastMaxInterval --fastSDP --aggressiveIntervalCut --bestn 10

4）python 0.2.Kmer_Link.py kmer.aln 1000 yak_1000.link

2.2 Call CNV

2.2.1 Individual RD processing

bash Individual.Process.sh -b yak1.bam -h yak1 -d dupfile(yak_1000.lik) -s X

文件输出至三个文件夹：RD_raw RD_absolute RD_normalized

将RD_normalized中文件以绝对路径写入 yak_normalized_list

注意排除内容为空的标准化文件-2023-4-5

2.2.2 CNVR detection

bash CNV.Discovery.sh -l yak_normalized_list -e exclude_list -f 0.1 -h 3 -r 0.5 -p primaryCNVR -m mergeCNVR

-r 根据群体数量按推荐参数设置 bash CNV.Discovery.sh 可查看

输出： primaryCNVR 和 mergeCNVR

exclude_list为空或应剔除的个体

2.2.3 Genotyping基因型识别

python Genotype.py --cnvfile mergeCNVR --outprefix Genotype

输出：genotypeCNVR.vcf 和 genotypeCNVR.tsv

参考：

GitHub - JiangYuLab/CNVcaller

CNVcaller遇到的坑 - 简书 (jianshu.com)

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
CNVcaller使用小记

CNVcaller是一个速度快、易使用的基因组CNV鉴定软件，结合自身使用经历对官方说明和参考文章进行简化。
复制链接

扫一扫

专栏目录

寤寐花开 CSDN认证博客专家 CSDN认证企业博客

码龄6年

4: 原创

77万+: 周排名

76万+: 总排名

2959: 访问

: 等级

43: 积分

4: 粉丝

2: 获赞

3: 评论

10: 收藏

私信

关注

热门文章

分类专栏

生信分析 4篇

最新评论

CNVcaller使用小记
寤寐花开: 使用绝对路径，同时检查bam文件完整性 samtools quickcheck
CNVcaller使用小记
木木夕625: 你好我想问下我再打开bam文件时一直报错无法找到该文件或者目录是怎么回事啊
CNVcaller使用小记
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。