一、read.vcfR的使用
read.vcfR的参数
read.vcfR(
file,
limit = 1e+07,
nrows = -1,
skip = 0,
cols = NULL,
convertNA = TRUE,
checkFile = TRUE,
check_keys = TRUE,
verbose = TRUE
)
file | VCF格式文件名 |
limit | 读入文件时不超过的内存量(以字节为单位)。 |
nrows | 要读入的最大行数(变异的数量),需为整数 |
skip | 在开始读取数据之前要跳过的行数(变体),需为整数 |
cols | 要从文件中提取的列号向量 |
convertNA | 将VCF丢失数据转换为NA的逻辑值 |
checkFile | 测试第一行是否符合VCF规范 |
check_keys | 逻辑判断check keys()是否被调用于测试判断INFO和FORMAT是否唯一 |
verbose | 报告详细的进展 |
x | vcfR或chromR类的对象 |
mask | 要使用的行的逻辑向量 |
APPEND | 追加到现有vcf文件还是写入新文件的逻辑 |
limit:是为了防止用户试图读取一个包含的数据超过内存容量的文件。根据数据矩阵的维数,估计需要多少内存。如果这个估计值超过了“limit”的值将引发错误并停止执行。用户可以将此限制增加到任何值,但鼓励将该值与可用物理内存量进行比较。
通过使用nrow、skip和cols参数可以输入VCF文件的一部分。前八列(固定区域)是定义的一部分,将始终包括在内。超过8的任何列都是可选的(gt区域)您可以通过设置cols参数指定要输入这些列中的哪些列。如果您想要一个可用的vcfR对象,您将希望始终包含9(FORMAT列)如果不包括第九列您可能会遇到功能减少的情况。
根据VCF规范,缺失的数据用(“.”)编码表示。在R语言中,丢失的数据可以被编码为NA。参数'convertNA'允许用户保留缺失数据的VCF表示或R表示。请注意,只有当整个值都被确定为缺失时,才会进行转换。例如,".|.:48:8:51,51" 将被保留,因为丢失的基因型伴随着其他分隔信息。相比之下,当convertNA=TRUE时,".|."会被转为NA。