如何进行DAP-seq的数据挖掘,筛选验证位点

从样本准备到寄送公司,每一天都在“祈祷”有个心仪的分析结果,终于在这天随着邮件提示音的响起,收到了分析结果......

分析前工作

爱基在进行数据分析之前,会有两次质控报告反馈给老师们。第一个,基因组DNA的提取质控报告(图1):保证DNA的完整性以及足够的量进行后续的富集亲和纯化;第二个,富集建库报告:构建DNA文库,利用磁珠富集与加完halo Tag标签表达的目的蛋白结合DNA片段,并纯化获得IP文库。这个过程中,为了检测蛋白表达的正常,爱基利用抗体对富集产物进行 WB 检测,同样对于文库也会进行质检(图2)。

图片

图1 DNA提取质控报告

图2 WB结果显示目的蛋白表达正常

分析思路

  第一部分

数据预处理:去接头序列、污染序列、低质量碱基,获得clean data序列,并进行相关数据统计;

  第二部分

参考基因组比对:将clean data定位到参考基因组上,得到bam文件,并去除重复序列,保留唯一比对的序列;

  第三部分

call peak: 将bam文件进行Peak检测,得到富集区域的信息,并进行Peak在基因功能元件的分布,最近基因寻找及motif预测。

  第四部分

Peak分析:统计Peak分布情况,对Peak最近基因进行GO、KEGG功能注释与富集及转录因子预测等。

图3 DAP分析流程

纵览整个本地分析结果,peak和motif可谓是重中之重。爱基结果“03.peak”中包含了peak的长度统计、peak在功能元件分布饼图、peak在基因组上的分布情况(是否有染色体偏好)以及关键peak的reads分布图,以上这些分析图也是在文献中普遍会见到的。而“06.motif”的结果则包含了大量潜在结合基序信息,从中老师们可以筛选到心仪的验证位点。

如何筛选验证位点

1. 从基因角度出发

在“03.peak/01.peak_annotation”表格中记录着peak的详细信息,包括:在染色体上具体位置、长度、峰顶所在染色体的位置、显著性、富集倍数、落在某个基因的哪个位置、统计距离最近基因以及这些基因的在不同数据库的注释结果。

如果前期做过其它实验或者通过文献查找已经有了关注基因,那么直接搜索基因id找到对应的peak,通过获得的peak编号在“06.Motif”文件夹的ecxel表格中找到匹配Peak的motif就可以考虑验证啦~

如果没有做过上述调查,可以现在基因注释列(GO、KEGG、NR......)搜索与自己课题相关的关键词。比如,抗旱研究可以搜索活性氧、激素(ABA、GA)等。锁定到与研究内容相关的gene,同行对应上peak,再和上述方式一致根据peak找到motif。

总之,这种方式逻辑是从gene→peak→motif。

2. 直接锁定基序

可以直接看motif网页版结果中的match Details,有无基序在数据库中已经被收录匹配目标转录因子(homerResults中看Best Match/Details;KnownResults中看Name列)。

以“sna/MA0086.2/Jaspar(0.681)”为例,其含义是这个比对结果来自Jaspar数据库的sna转录因子,MA0086.2是Jaspar的编号,可通过这个具体编号找到对应sna-motif信息(当没有MA编号时,可以直接搜索转录因子的名称),0.681代表该denovo motif与这个sna-motif的序列相似打分。如果研究的是sna就可以优先关注这个基序啦。

除此之外,软件会自动按照显著性排序,将更显著的排在前列;碱基复杂程度低的、只有2个碱基不断重复的,不建议优先考虑哦。

图片

注:Known和homer 是两种不同的motif预测算法,结果都是可信的。Known motif基于已有转录因子数据库的motif结果,比对本次的peak有没有在这些已有的研究motif上富集;homer result是指利用所有的peak从头(de novo)计算得到motif,然后会比对已有转录因子数据库的motif,看比对率最一致的是哪个(bestmatch)。两者不一定一致(因为motif序列是一组序列模式,相似的序列可能会被归为同一个motif)。

扩   展

通过上述的方式已经锁定了想要验证的基因位点后,还需要确定下motif在基因/基因启动子区真实存在的碱基信息哦。参考:【干货分享 | 一文GET寻找motif在序列上的定位】

想要更多了解,欢迎各位老师前来咨询哦~

  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
1. 使用MEME进行motif分析 MEME是一种常用的motif分析工具,可以用于从序列数据中识别出潜在的motif。利用dap-seq输出的peak序列,可以使用MEME进行motif分析。 首先,需要将dap-seq输出的peak序列转换为fasta格式的文件。可以使用bedtools将peak序列提取出来,并将其转换为fasta格式: ``` bedtools getfasta -fi genome.fa -bed peaks.bed -fo peaks.fa ``` 其中,genome.fa为参考基因组序列文件,peaks.bed为dap-seq输出的peak文件,peaks.fa为输出的fasta格式的peak序列文件。 然后,可以使用MEME对peaks.fa进行motif分析: ``` meme peaks.fa -oc meme_output -nmotifs 10 -minw 6 -maxw 20 ``` 其中,meme_output为输出结果的文件夹,-nmotifs指定需要识别的motif数量,-minw和-maxw分别指定motif的最小和最大长度。 2. 使用Homer进行motif分析 Homer是另一个常用的motif分析工具,也可以用于从序列数据中识别出潜在的motif。类似地,利用dap-seq输出的peak序列,可以使用Homer进行motif分析。 首先,需要将dap-seq输出的peak序列转换为bed格式的文件。可以使用bedtools将peak序列提取出来,并将其转换为bed格式: ``` bedtools sort -i peaks.bed > sorted_peaks.bed bedtools merge -i sorted_peaks.bed > merged_peaks.bed awk 'BEGIN{OFS="\t"}{print $1,$2,$3,"peak_"NR,".",$6}' merged_peaks.bed > peaks_homer.bed ``` 其中,peaks.bed为dap-seq输出的peak文件,sorted_peaks.bed和merged_peaks.bed为中间文件,peaks_homer.bed为转换后的bed格式的peak文件。 然后,可以使用Homer对peaks_homer.bed进行motif分析: ``` findMotifsGenome.pl peaks_homer.bed genome_dir homer_output -size 200 -p 8 ``` 其中,genome_dir为参考基因组序列文件夹,homer_output为输出结果的文件夹,-size指定motif的长度,-p指定使用的线程数。 3. 对比分析motif 对于使用不同的工具进行motif分析得到的结果,可以使用Tomtom进行对比分析。Tomtom是一个用于motif比对和聚类的工具,可以帮助用户在已知的motif数据库中搜索相似的motif,并将它们聚类为同一个motif家族。 首先,需要将使用不同工具得到的motif结果转换为meme格式的文件,并将其放入同一个文件夹中,如motif_dir。 然后,可以使用Tomtom进行对比分析: ``` tomtom -o tomtom_output -verbosity 1 -thresh 0.1 -eps -text -min-overlap 5 -dist pearson -no-ssc motif_dir/motif1.meme motif_dir/motif2.meme ``` 其中,tomtom_output为输出结果的文件夹,-thresh指定使用的阈值,-dist指定使用的距离度量方式,-no-ssc表示不使用自身比对,motif1.meme和motif2.meme为需要比对的motif文件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值