R语言笔记2:读写数据所需的主要函数、与外部环境交互

Getting Data In and Out of R

(一)读取数据

读取数据所需的几种函数:
  • read.tableread.csv:最常用的读取列表数据函数,可返回数据框形式。
  • readLines:逐行读取文本文件,返回一个字符向量
  • source:读取R代码、脚本
  • dget:读取R代码(读取的是以逆句法分析后以文本文件储存的R对象)
  • loadunserialize:把二进制对象读入R
read.table()参数:
  • file:文件名(字符串,即文件路径)
  • header:逻辑标志,表明第一行是否有表头、行名(是变量名还是数据)
  • sep:分隔符(字符串,表明每一列是怎么分隔的,可能是逗号、冒号、空格等)
  • colClasses:字符向量(长度=数据集列数)说明数据集中每一列数据的类别
  • nrows:数据集中数据的行数
  • comment.char:字符串(用于表明文件中注释的字符)
  • skip:指定文件(非数据区域)从上到下多少行可忽略
  • stringsAsFactors:选择是否把文字变量编码为因子,默认为TRUE
将文件存至Rstudio识别的路径

read.table()函数中填写文件名之前,需要将文件存到正确的路径中

> ## 查看保存路径
> getwd()
[1] "d:/Program Files/RStudio"
> ## 修改保存路径
> setwd("E:/read data")
> ## 读取文件
> read.csv(data.csv, TRUE)
>
> ## 运行文件
> data <- read.csv("data.csv", header = FALSE)
> data

读取中小型数据集时

直接写文件名

> data <- read.table("foo.txt")

读取大型数据集时

你需要先清楚该数据占多大内存,如果不设置其他参数,R会默认将整个数据集都载入内存中。

  • 如果文件中没有注释行的话,那可以把 comment.char 设置为空,即 comment.char=""
  • colClasses 参数很重要,如果不设置,R会扫描每一列数据并判断其类型,非常耗费时间。
  • 如果所有列都是同一数据类型,可以直接统一设置 colClasses = numeric
  • 如果所有列的数据类型不统一
  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值