基因组Survey分析

流程图:
在这里插入图片描述
图片来源:https://www.jianshu.com/p/94da86093843

一、Fastp质控

在这里插入图片描述

二、NT比对

一般选择第六个输出格式
在这里插入图片描述

结果示例:
在这里插入图片描述

三、k-mer分析

软件:GCE/genomescope
分析目的:预估基因组大小,重复序列比例
k-mer: 核酸序列分成包含K个碱基的字符串
mer代表monomeric unit,可看成单bp。
核酸序列长度为L,k-mer长度为K,那么可以得到L-K+1个k-mer

在这里插入图片描述
使用k-mer估计基因组大小:
在这里插入图片描述

一般以主峰深度作为kmer期望测序深度,也就是那个分号下面的
实操:
获取测序数据的K-mer频率:

kmer -k 17 -t 20 -p qianzhui cleandatalist

-k 指设置的K值,一般为17 一定要在13-19之间,不然会报错
-p 指输出文件前缀
cleandatalist 是一个包含路径的文件,如下:
在这里插入图片描述
生成名为kmer.freq.stat的文件,前缀是qianzhui,所以文件就是qianzhui.kmer.freq.stat,使用这个文件进行下一步分析
本步骤参考:https://blog.csdn.net/weixin_69890544/article/details/135440067

获取gce运行参数:

less qianzhui.kmer.freq.stat | grep "#Kmer indivdual number" #获取gce参数-g
less qianzhui.kmer.freq.stat | perl -ne 'next if(/^#/ || /^\s/); print; ' | awk '{print $1"\t"$2}' > ara.kmer.freq.stat.2colum 
#获得gce参数-f,也就是这里的ara.kmer.freq.stat.2colum

使用gce进行survey:
纯合模式:

gce -g 3295248520 -f ara.kmer.freq.stat.2colum >gce.table 2>gce.log
#使用之前的得到的-g和-f参数进行基因组survey

杂合模式:

./gce -g 3295248520 -f ara.kmer.freq.stat.2colum -H 1 -c 28 >gce.table 2>gce.log
#使用之前的得到的-g和-f参数进行基因组survey
# -c 期望深度 其中-c 的值一般指定为纯合模式运行得到的rawpeak,在纯合得到的gce.log里面有

生成的文件里有一行是kmer-species heterozyugous ratio is
后面有一个数字,用这个数字除以kmer大小,等于基因组杂合率,基因组杂合率<0.002,可以大概判断是纯合基因组,否则是杂合基因组
根据是纯合还是杂合基因组,去使用对应的gce.log的结果
genomesize,是基因组大小。
重复序列占比:
纯合模式运行结果的最下面有genomesize和b[1]信息
杂合模式的运行结果最下面有genomesize和b[1],b[1/2]信息
纯合模式重复序列占比=1-b[1]
杂合模式重读序列占比=1-b[1/2]-b[1]
本步骤参考:https://blog.csdn.net/weixin_69890544/article/details/135440067

四、画个图

c=`awk '$1==60' ara.kmer.freq.stat.2colum|awk '{print $2}'`
echo $c
#选取合理的深度范围
head -n 500 ara.kmer.freq.stat.2colum > ara.freq.stat.2colum.500
#作图
Rscript distribution.r ara.freq.stat.2colum.500 ./ $c
convert kmer_distribution.svg kmer_distribution.png
sz kmer_distribution.png

distribution.r 脚本内容:

library(ggplot2)
#1. data # 读入 深度-Kmer种类数频率 表格
args <- commandArgs()
file=args[6] 
a<-read.table(file,sep="\t")
#2. output
setwd(args[7])
#3. ylim 峰值大小,就是Kmer的种类数峰值大小,作为y的max值
peak=args[8]
peak<-as.numeric(peak)
#4. plot 作图,
svg("kmer_distribution.svg", width=10) 
ggplot(a,aes(x=V1,y=V2),col="red")+geom_line(color="green")+geom_point(color="red")+xlim(0,200)+ylim(0,peak)+xlab("
Depth of Kmer Species")+ylab("Frequency of Kmer Species")+theme_bw()+theme(axis.title=element_text(size=20))
dev.off()

图展示:
在这里插入图片描述
本步骤参考:https://www.jianshu.com/p/94da86093843

  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基因组survey评估是通过估算基因组大小来对要组装的物种进行预估。在评估过程中,可以使用多种软件和方法来进行估算。 其中,Jellyfish是一种常用的软件,它可以通过统计k-mer的频率来估算基因组大小。通过使用Jellyfish和GenomeScope软件,可以得到基因组大小的估算结果。例如,引用\[2\]中的结果显示,基因组大小为179 Mb。 此外,还有GCE软件可以用于估算基因组大小。通过使用GCE软件,可以得到基因组大小的估算结果。 在进行基因组survey评估之前,需要对要组装的物种有一个大致的了解,判断其复杂程度。根据引用\[3\]中的标准,可以根据杂合度、GC含量和重复序列的比例来判断基因组的复杂程度。 总结起来,基因组survey评估是通过使用软件和方法来估算基因组大小,并根据物种的复杂程度来进行判断。 #### 引用[.reference_title] - *1* *2* *4* *5* [基因组组装---基因组大小评估(genome survey)](https://blog.csdn.net/cfc424/article/details/126579241)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [基因组survey](https://blog.csdn.net/weixin_33714884/article/details/89612110)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值