数据输入
描述
读取表格格式的文件并从中创建数据框,使用 对应于文件中字段的行和变量的大小例。
用法
read.table(file, header = FALSE, sep = "", quote = "\"'",
dec = ".", row.names, col.names,
as.is = !stringsAsFactors,
na.strings = "NA", colClasses = NA, nrows = -1,
skip = 0, check.names = TRUE, fill = !blank.lines.skip,
strip.white = FALSE, blank.lines.skip = TRUE,
comment.char = "#", allowEscapes = FALSE, flush = FALSE,
stringsAsFactors = default.stringsAsFactors(),
encoding = "unknown")
read.csv(file, header = TRUE, sep = ",", quote="\"", dec=".",
fill = TRUE, comment.char="", ...)
read.csv2(file, header = TRUE, sep = ";", quote="\"", dec=",",
fill = TRUE, comment.char="", ...)
read.delim(file, header = TRUE, sep = "\t", quote="\"", dec=".",
fill = TRUE, comment.char="", ...)
read.delim2(file, header = TRUE, sep = "\t", quote="\"", dec=",",
fill = TRUE, comment.char="", ...)
参数
file | 要从中读取数据的文件的名称。 表的每一行显示为文件的一行。如果是这样 不包含绝对路径,文件名相对于当前工作目录 .波浪号扩展在支持的地方执行。 |
header | 一个逻辑值,指示文件是否包含 变量的名称作为其第一行。如果缺少,则值为 根据文件格式确定:设置为当且仅当第一行包含的字段比 列数。headerTRUE |
sep | 字段分隔符。每行上的值 文件由此字符分隔。如果( 默认值为 ) 分隔符为“空格”, 即一个或多个空格、制表符、换行符或回车符。sep = ""read.table |
quote | 引用字符集。禁用引用 总共,使用 .请参阅有关 引号中嵌入的引号的行为。quote = "" |
dec | 文件中用于小数点的字符。 |
row.names | 行名的向量。这可以是一个矢量给出 实际的行名,或给出列的单个数字 包含行名或字符串的表,提供 包含行名的表列的名称。 |
col.names | 变量的可选名称向量。 默认值是使用后跟列号。"V" |
as.is | 的默认行为是转换 字符变量(未转换为逻辑、数字或 复杂)的因素。该变量控制 转换未由 另行指定的列。 它的值要么是逻辑向量(如果 必要),或数字或字符索引的向量 指定不应将哪些列转换为因子。 |
na.strings | 字符串的字符向量,其为 解释为值。空白字段也是 被认为是逻辑、整数、数字和 复杂字段。 |
colClasses | 字符。要假定的类向量 列。根据需要回收,或者如果字符矢量 命名的、未指定的值被视为 。 |
nrows | 整数:要读入的最大行数。阴性 和其他无效值将被忽略。 |
skip | 整数:之前要跳过的数据文件的行数 开始读取数据。 |
check.names | 逻辑。如果然后的名称 检查数据框中的变量以确保它们 语法上有效的变量名。如有必要,可以对其进行调整 (通过)以便它们是,并且还确保 没有重复项。 |
fill | 逻辑。如果万一行不相等 长度,空白字段是隐式添加的。查看详细信息。TRUE |
strip.white | 逻辑。仅在具有以下情况时使用 已指定,并允许剥离前导和尾随 字段中的空格 ( 字段 总是被剥离)。有关更多详细信息,请参阅, 请记住,列可能包含行名。 |
blank.lines.skip | 逻辑:如果空行中的 输入将被忽略。TRUE |
comment.char | 字符:长度为 1 的字符向量 包含单个字符或空字符串。用于 完全关闭对评论的解释。"狗" |
allowEscapes | 逻辑。是否应该处理 C 样式转义,例如逐字读取(默认值)?请注意,如果 不在引号内,这些可以解释为分隔符(但不是 作为注释字符)。有关详细信息,请参见。 |
flush | 逻辑:如果 ,将刷新到 读取请求的最后一个字段后结束行。 这允许在最后一个字段之后放置注释。 |
stringsAsFactors | 逻辑:是否应转换字符向量 因素 |
encoding | 输入字符串假定的编码。是的 用于将字符串标记为已知 拉丁语-1 或 UTF-8:它不用于重新编码输入。 |
... | 要传递给 的更多参数。read.table |
详
此函数是将表格数据读入 R 的主要方法。
如果字段或行不包含任何内容,则该字段或行为“空白”(除了 空格(如果未指定分隔符)在注释字符之前或 字段或行的末尾。
如果未指定,并且标题行少一个 条目比列数,第一列取 行名。这允许从 它们被打印出来。如果指定并执行 不引用第一列,该列将从此类文件中丢弃。row.namesrow.names
数据列的数量是通过查看前五行来确定的 输入(或整个文件,如果少于五行),或来自 的长度(如果已指定)和 更长。如果或为真,这可能是错误的,因此请在必要时指定。col.namesfillblank.lines.skipcol.names
read.csv并且与默认值相同。它们适用于 读取“逗号分隔值”文件 ('.csv') 或 () 变体 用于使用逗号作为小数点和分号的国家/地区 作为字段分隔符。同样,并且用于读取分隔文件,默认为 分隔符的 TAB 字符。请注意,在这些变体中,注释字符 已禁用。read.csv2read.tableread.csv2read.delimread.delim2header = TRUEfill = TRUE
跳过注释字符后的其余行;引号 不会在注释中处理。允许完整的注释行 提供;但是,前面的注释行 到标题中必须在第一个非空白处包含注释字符 列。blank.lines.skip = TRUE
支持带有嵌入换行符的带引号的字段,除非在 注释字符。
价值
包含 文件中的数据。
空输入是一个错误,除非指定,当 返回 0 行数据框:同样,如果结果为 0 行数据框,则只给出一个标题行。请注意, 在任何一种情况下,列都是逻辑的,除非是 提供。
结果中的字符串(包括因子水平)将具有 声明的编码,如果为 IS 或 data.frame col.namesheader = TRUEcolClassesencoding"latin1""UTF-8"
注意
中引用的列包括 行名列(如果有)。as.iscolClasses
如果指定为 六个原子向量类。colClasses
使用,即使是轻微的高估,也将有助于记忆 用法。nrows
使用速度会明显更快。comment.char = ""
read.table不是读取大矩阵的正确工具, 特别是那些具有许多列的数据框:它旨在读取可能具有非常不同类别的列的数据框。 请改用。scan
引用
钱伯斯,J.M.(1992)模型数据。S eds J. M. Chambers 和 T. J. Hastie、Wadsworth & Brooks/Cole 中的统计模型第 3 章。
参见
R 数据导入/导出手册。