CNVcaller使用小记

一、CNVcaller

1.1 前置环境:

win11的Ubuntu系统为分析平台

        perl

        python3

        blasr

        samtools

        python 包:click、numpy==1.20.0、scikit-learn==0.22.2 、pandas==1.2.0

        建议:pip intall click numpy scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

Tips: CNVcaller更新代码:

        1. 将Genotype.py中的

calinski_harabaz_score  全部替换为 calinski_harabasz_score

        2. 分析过程中所有输入输出文件都使用绝对路径

1.2 软件地址

GitHub - JiangYuLab/CNVcaller

下载压缩包:https://github.com/JiangYuLab/CNVcaller/archive/refs/heads/master.zip

解压缩:

 改文件路径:

CNV.Discovery.sh和Individual.Process.sh

 

 二、Call CNV

2.1 参考基因组准备

以牦牛为例:

https://ftp.ensembl.org/pub/release-109/fasta/bos_grunniens/dna/Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa.gz

解压缩:Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa

2.1.1 基因组索引

perl CNVcaller-master/bin/CNVReferenceDB.pl Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa -w 1000

输出:referenceDB.1000

2.1.2 reference.fa.sa 自己生成dup文件

1)sawriter Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa

输出 Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa.sa  (与bwa index 生成的.sa不一样,注意区分文件目录)

2)python 0.1.Kmer_Generate.py Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa 1000 kmer.fa

3)blasr kmer.fa Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa --sa Bos_grunniens.LU_Bosgru_v3.0.dna.toplevel.fa.sa --out kmer.aln -m 5 --noSplitSubreads --minMatch 15 --maxMatch 20 --advanceHalf --advanceExactMatches 10 --fastMaxInterval --fastSDP --aggressiveIntervalCut --bestn 10

4)python 0.2.Kmer_Link.py kmer.aln 1000 yak_1000.link

2.2 Call CNV

2.2.1 Individual RD processing

bash Individual.Process.sh -b yak1.bam -h yak1 -d dupfile(yak_1000.lik) -s X

文件输出至三个文件夹:RD_raw RD_absolute RD_normalized

将RD_normalized中文件以绝对路径写入 yak_normalized_list

注意排除内容为空的标准化文件-2023-4-5

2.2.2 CNVR detection

bash CNV.Discovery.sh -l yak_normalized_list -e exclude_list -f 0.1 -h 3 -r 0.5 -p primaryCNVR -m mergeCNVR

-r 根据群体数量按推荐参数设置  bash CNV.Discovery.sh 可查看

 

输出: primaryCNVR 和 mergeCNVR

exclude_list为空或应剔除的个体

2.2.3 Genotyping基因型识别

python Genotype.py --cnvfile mergeCNVR --outprefix Genotype

输出:genotypeCNVR.vcf 和 genotypeCNVR.tsv

参考:

GitHub - JiangYuLab/CNVcaller

CNVcaller遇到的坑 - 简书 (jianshu.com)

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Protobuf是一种高效的序列化协议,可以用于数据交换和数据存储。它的主要优势是大小小,速度快,可扩展性强。下面是使用Protobuf的一些小记: 1. 定义消息格式 首先,需要定义消息格式,以便Protobuf可以将数据序列化和反序列化。消息格式定义在.proto文件中,使用protobuf语言编写。例如,下面是一个简单的消息格式定义: ``` syntax = "proto3"; message Person { string name = 1; int32 age = 2; } ``` 这个消息格式定义了一个名为Person的消息,包含两个字段:name和age。 2. 生成代码 一旦消息格式定义好,就可以使用Protobuf编译器生成代码。编译器将根据消息格式定义生成相应的代码,包括消息类、序列化和反序列化方法等。可以使用以下命令生成代码: ``` protoc --java_out=. message.proto ``` 这将生成一个名为message.pb.java的Java类,该类包含Person消息的定义以及相关方法。 3. 序列化和反序列化 一旦生成了代码,就可以使用Protobuf序列化和反序列化数据。例如,下面是一个示例代码,将一个Person对象序列化为字节数组,并将其反序列化为另一个Person对象: ``` Person person = Person.newBuilder() .setName("Alice") .setAge(25) .build(); byte[] bytes = person.toByteArray(); Person deserializedPerson = Person.parseFrom(bytes); ``` 这个示例代码创建了一个Person对象,将其序列化为字节数组,然后将其反序列化为另一个Person对象。在这个过程中,Protobuf使用生成的代码执行序列化和反序列化操作。 以上是使用Protobuf的一些基本步骤和注意事项,希望对你有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值