vcfR包中read.vcfR函数使用

本文详细解释了read.vcfR函数在处理VCF文件时的参数,如limit控制内存使用,nrows指定读取行数,skip跳过行,以及cols选择性读取列。还介绍了如何处理VCF文件中的缺失数据和转换。
摘要由CSDN通过智能技术生成

一、read.vcfR的使用

read.vcfR的参数

read.vcfR(
  file,
  limit = 1e+07,
  nrows = -1,
  skip = 0,
  cols = NULL,
  convertNA = TRUE,
  checkFile = TRUE,
  check_keys = TRUE,
  verbose = TRUE
)
fileVCF格式文件名
limit

读入文件时不超过的内存量(以字节为单位)。

nrows要读入的最大行数(变异的数量),需为整数
skip在开始读取数据之前要跳过的行数(变体),需为整数
cols要从文件中提取的列号向量
convertNA将VCF丢失数据转换为NA的逻辑值
checkFile测试第一行是否符合VCF规范
check_keys逻辑判断check keys()是否被调用于测试判断INFO和FORMAT是否唯一
verbose报告详细的进展
xvcfR或chromR类的对象
mask要使用的行的逻辑向量
APPEND追加到现有vcf文件还是写入新文件的逻辑

limit:是为了防止用户试图读取一个包含的数据超过内存容量的文件。根据数据矩阵的维数,估计需要多少内存。如果这个估计值超过了“limit”的值将引发错误并停止执行。用户可以将此限制增加到任何值,但鼓励将该值与可用物理内存量进行比较。

通过使用nrow、skip和cols参数可以输入VCF文件的一部分。前八列(固定区域)是定义的一部分,将始终包括在内。超过8的任何列都是可选的(gt区域)您可以通过设置cols参数指定要输入这些列中的哪些列。如果您想要一个可用的vcfR对象,您将希望始终包含9(FORMAT列)如果不包括第九列您可能会遇到功能减少的情况。

根据VCF规范,缺失的数据用(“.”)编码表示。在R语言中,丢失的数据可以被编码为NA。参数'convertNA'允许用户保留缺失数据的VCF表示或R表示。请注意,只有当整个值都被确定为缺失时,才会进行转换。例如,".|.:48:8:51,51" 将被保留,因为丢失的基因型伴随着其他分隔信息。相比之下,当convertNA=TRUE时,".|."会被转为NA。

  • 19
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值