r语言 fread函数参数_数据分析必备:掌握这个R语言基础包1%的功能让你事半功倍!(附代码)...

f7930b2dd413357eb60a11a080a1c633.png

来源:大数据

本文约 7100字 ,建议阅读 15分钟

本文介绍了utils包在R语言基础的用途。

[ 导读 ] 无论数据分析的目的是什么,将数据导入R中的过程都是不可或缺的。 毕竟巧妇难为无米之炊。 utils包是R语言的基础包之一。 这个包最重要的任务其实并不是进行数据导入,而是为编程和开发R包提供非常实用的工具函数。 使用utils包来进行数据导入和初步的数据探索也许仅仅只是利用了utils包不到1%的功能,但这1%却足以让你在学习R语言时事半功倍。 7df2b46921e4ef5c56579845b0c39b3c.png 1. read.csv/csv2: 逗号分隔数据读取 .csv可能是目前最常见的平面文件类型了。它代表的是comma-separated values,简单来讲就是,文件里每一个单独的数据值都是用逗号进行分隔的。 .csv只是text file(文本文件)的一种,文本文件在微软的Windows操作系统中常以拓展名为.txt的形式呈现。文本文件可以使用各种符号来分隔数据值,例如常见的tab和“;”(分号),或者其他任意符号。即便是以.csv为拓展名的文件也并非一定是以逗号进行分隔的,相关内容在后文的函数演示部分会有介绍。 文件的拓展名并非必须,熟悉Linux系统的读者可能接触过很多无拓展名的文件。处理无拓展名的文本文件数据时,最简单的办法就是使用data.table包中的fread函数。 utils里的read.csv/csv2是专门用于设置快速读取逗号分隔(read.csv)或是分号分隔(read.csv2)。也就是说,在事先了解数据值分隔符号的情况下,这两个函数对分隔符和其他一些参数的默认设置会使数据导入的部分更加简单和快捷。 有一点需要特别注意,即这两个函数对小数点的处理:前者默认的小数点是“.”,后者默认的小数点是“,”。这只是因为不同国家技术人员对数据值分隔符的见解或者好恶不同而造成的。 万里长征第一步,我们先来看read.csv最简单的使用方式,代码如下:
> flights "flights.csv")
此行代码可以解读为使用read.csv从工作空间读取文件flights.csv,然后将数据集保存到flights中,其他所有参数都使用默认值。因为flights.csv文件已经在R的工作路径里,所以此处免去了设置work directory。 这里希望读者能够自行探索使用.rproj(R项目—将每一次数据分析的过程都看作一个独立的项目)来对每一个独立的数据分析工作进行分类和归集。该方法不仅免去了设置路径的麻烦,也减少了因原始数据文件太多而可能导致的各种隐患。 小知识:函数在执行的时候可以依照其默认设置的参数位置来执行,也就是说,用户无须指定每一个参数的名称,只需按照位置顺序来设定参数值即可。比如,read.csv中的file参数名就可以省略,只要第一位是读取文档的目标路径和文件名就可以。 数据文件被读取到R工作环境中的第一步通常为调用str函数来对该数据对象进行初步检视,下面的代码列出了该函数最简单的使用方式。
    > str(object = flights)    'data.frame':   6 obs. of  6 variables:$ carrier : Factor w/ 4 levels "AA","B6","DL",..: 4 4 1 2 3 4$ flight  : int  1545 1714 1141 725 461 1696$ tailnum : Factor w/ 6 levels "N14228","N24211",..: 1 2 4 6 5 3$ origin  : Factor w/ 3 levels "EWR","JFK","LGA": 1 3 2 2 3 1$ dest    : Factor w/ 5 levels "ATL","BQN","IAH",..: 3 3 4 2 1 5$ air_time: int  227 227 160 183 116 150
str函数可用于检视读取数据结构、变量名称等。这里同样也只指定了一个非默认参数,其他参数全部都为默认值。str的输出结果由5个主要部分组成,具体说明如下。
  • data.frame代表数据集在R中的呈现格式,这里指的是数据框格式,读者可以将其设想为常见的Excel格式。

  • 6 obs. of 6 variables代表这个数据集有6个变量,每个变量分别有6个观测值。

  • $ carrier与其余带有“$”符号的函数均指变量名称。

  • 变量名称冒号后面的Factor和int代表的是变量类型。这里分别是指因子型Factor和整数型int数据。另外还有字符型chr、逻辑型logi、浮点型dbl(带有小数点的数字)、复杂型complex等。因子型变量的后面还列出了各个变量的因子水平,也就是拥有多少个不同的因子。比如,出发地origin后的3 levels就是表示其有3个因子水平。只是出发地是否属于因子类型的数据还有待商榷,而read.csv默认将所有的字符型数据都读成了因子型。

  • 数据中的实际观测值。str函数在默认情况下会显示10行数据。使用str函数浏览导入的数据集可以让用户确定读取的数据是否正确、数据中是否有默认的部分、变量的种类等信息,进而确定下一步进行数据处理的方向。其他用来检视数据集的函数还有head、tail、view等,另外,Rstudio中的Environment部分也可以用于查看目前工作环境中的数据框或其他类型的数据集。

前文提到过
  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值