R语言丨根据VCF文件设计引物，自动识别两样本差异SNP位点，调用samtools获取上下游参考序列

生信分析笔记

已于 2023-07-11 11:06:32 修改

阅读量946

点赞数

文章标签：程序人生

于 2023-07-09 23:05:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZaoJewin/article/details/131629008

版权

这篇博客介绍了如何使用R语言根据VCF文件识别两样本差异SNP位点，并利用samtools获取上下游参考序列，以设计引物。文章详细阐述了解决思路，包括加载库、设置参数、读取数据、判断变异类型、筛选差异位点、获取参考序列等步骤，最后将结果保存为csv文件。

摘要由CSDN通过智能技术生成

根据变异位点设计引物序列

今天碰到一个新问题：假如有一个vcf文件储存了两个样品的变异位点基因型数据，每行代表一个位点，我现在想找出两样本差异的SNP位点，再把差异位点用[REF/ALT]的形式表示，然后将其在参考基因组上下游100bp的序列找出来放在差异位点前后位置，得到一个序列文本，用于设计引物。

解决思路

如何判断差异SNP？

通过循环判断两个样品的基因型信息实现，相同时为same，不同时为diff
如何提取差异位点？

通过tidyverse系列函数filter实现筛选，只选取s开头的SNP位点
如何获取参考基因组某段序列？

通过samtools调用faidx功能实现序列查询
如何生成引物设计信息？

通过合并字符串生成最终结果

下面是详细的实现方法，可以批量对vcf文件的差异位点生成引物设计数据，测试环境为linux R4.2.3，支持云端计算，如有建议或者需要欢迎联系后台交流。

1. 加载所需的库

首先，需要加载两个R包：vcfR和tidyverse。这两个包提供了处理VCF文件和数据处理的功能。

library(vcfR)
library(tidyverse)

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

生信分析笔记 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。