vcfR包中read.vcfR函数使用

WENLIN_Lin

已于 2024-04-20 14:35:19 修改

阅读量604

点赞数 19

分类专栏： ADNI数据处理文章标签：笔记大数据 r语言

于 2024-04-18 15:37:00 首次发布

本文链接：https://blog.csdn.net/WL_LIN/article/details/137824799

版权

ADNI数据处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文详细解释了read.vcfR函数在处理VCF文件时的参数，如limit控制内存使用，nrows指定读取行数，skip跳过行，以及cols选择性读取列。还介绍了如何处理VCF文件中的缺失数据和转换。

摘要由CSDN通过智能技术生成

一、read.vcfR的使用

read.vcfR的参数

read.vcfR(
  file,
  limit = 1e+07,
  nrows = -1,
  skip = 0,
  cols = NULL,
  convertNA = TRUE,
  checkFile = TRUE,
  check_keys = TRUE,
  verbose = TRUE
)

file	VCF格式文件名
limit	读入文件时不超过的内存量（以字节为单位）。
nrows	要读入的最大行数（变异的数量），需为整数
skip	在开始读取数据之前要跳过的行数(变体），需为整数
cols	要从文件中提取的列号向量
convertNA	将VCF丢失数据转换为NA的逻辑值
checkFile	测试第一行是否符合VCF规范
check_keys	逻辑判断check keys()是否被调用于测试判断INFO和FORMAT是否唯一
verbose	报告详细的进展
x	vcfR或chromR类的对象
mask	要使用的行的逻辑向量
APPEND	追加到现有vcf文件还是写入新文件的逻辑

limit：是为了防止用户试图读取一个包含的数据超过内存容量的文件。根据数据矩阵的维数，估计需要多少内存。如果这个估计值超过了“limit”的值将引发错误并停止执行。用户可以将此限制增加到任何值，但鼓励将该值与可用物理内存量进行比较。

通过使用nrow、skip和cols参数可以输入VCF文件的一部分。前八列(固定区域)是定义的一部分，将始终包括在内。超过8的任何列都是可选的(gt区域)您可以通过设置cols参数指定要输入这些列中的哪些列。如果您想要一个可用的vcfR对象，您将希望始终包含9(FORMAT列)如果不包括第九列您可能会遇到功能减少的情况。

根据VCF规范，缺失的数据用(“.”)编码表示。在R语言中，丢失的数据可以被编码为NA。参数'convertNA'允许用户保留缺失数据的VCF表示或R表示。请注意，只有当整个值都被确定为缺失时，才会进行转换。例如，".|.:48:8:51,51" 将被保留，因为丢失的基因型伴随着其他分隔信息。相比之下，当convertNA=TRUE时，".|."会被转为NA。