用R读取CSV或TXT格式的数据

下面内容摘录自《用R 探索医药数据科学》专栏文章的部分内容。

1)栏目后续章节的文章将深入概括R语言在临床研究和新药创新领域的应用,填补了国内R教材中尚未广泛覆盖的部分内容。

2)专栏每篇文章都在 5000 字以上,质量平均分高达 94 分。已发表章节也会增加新的文章,已发表的文章也会更新版本,可留意专栏内容和题目信息。

3)由于每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!看全文请点击下面链接。​​​​​​​2章6节:读写RDS或RData等不同格式的文件,包括CSV和TXT、Excel的常见文件格式,和SPSS、SAS、Stata、Minitab等统计软件的数据文件(更新20240807)_r语言读取rds文件-CSDN博客文章浏览阅读298次。读写RDS或RData等不同格式的文件,包括CSV和TXT、Excel的常见文件格式,和SPSS、SAS、Stata、Minitab等统计软件的数据文件_r语言读取rds文件https://blog.csdn.net/2301_79425796/article/details/140642745?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22140642745%22%2C%22source%22%3A%222301_79425796%22%7D

欢迎订阅我们专栏

.......前面部分请点击上面链接看原文(原文7839字)

二、CSV或TXT格式

CSV(Comma-Separated Values)和TXT(文本)文件格式也是常见的数据文件类型之一。

1、CSV文件

CSV文件具有简单易用、广泛兼容、人类可读和高压缩性的优点。由于其格式简单、使用逗号分隔值,CSV文件很容易创建和解析,几乎所有的数据库和电子表格软件都支持这种格式,使得在不同应用程序之间传输数据变得方便。此外,CSV文件是纯文本文件,可以用任何文本编辑器查看和修改,其简单的结构也使得它们可以被高效压缩,节省存储空间。然而,CSV文件也有一些缺点,例如不支持嵌套数据结构或多表关系,无法表示层次结构或对象数据。不同应用程序对CSV格式的实现可能有所不同,导致数据解析时出现问题,而且CSV文件不包含数据类型信息,所有数据都被视为字符串,这可能导致数据处理时的类型转换问题。

在Windows记事本等工具中打开CSV文件,可以发现其格式非常简单:文件中的每一行代表一个观测值,每一列代表一个变量,主要保存文本信息。建议使用read.csv()函数读取CSV文件。如果文件seaice.csv位于工作目录下,可以直接读取该文件:

# 从工作目录读取名为seaice.csv的CSV文件,并将其存储在数据框seaice.data中
seaice.data <- read.csv("seaice.csv")

# 从指定路径读取名为seaice.csv的CSV文件,并将其存储在数据框seaice.data中
seaice.data <- read.csv("/Users/.../R_WORD_D/seaice.csv")

read.csv()是R语言中用于读取CSV(逗号分隔值)文件的一个常用函数。它将CSV文件导入R,并将数据存储为数据框(data frame)格式。基本语法为read.csv(file, header = TRUE, sep = ",", dec = ".", ...),其中file为文件路径或URL,header为逻辑值表示是否将第一行作为列名(默认为TRUE),sep为字段分隔符(默认为逗号","),dec为小数点字符(默认为".")。默认情况下,read.csv()使用逗号作为分隔符、点作为小数点,并将第一行作为列名。该函数具有很高的灵活性,可以通过参数调整来读取不同格式的CSV文件。

使用write.csv()函数可以将数据集seaice.data保存为名为seaice2.csv的CSV文件,存储在工作目录中:

# 将数据框seaice.data保存为名为seaice2.csv的CSV文件
write.csv(seaice.data, "seaice2.csv")

在上述代码中,write.csv()函数的第一个参数是要写入的数据框,第二个参数是保存CSV文件的名称。

当我们需要将文件保存到工作目录以外的其他路径时,可以通过指定完整的文件路径来实现。下面我把含有 seaice.data 数据集的文件放在Document文件夹里,因为我的路径是 /Users/profxie/Documents/ ,所以我指定了这个路径,把文件保存在起来。

# 假设 seaice.data 是你的数据框
seaice.data <- data.frame(Year = c(2000, 2001, 2002),
                          Extent = c(5.7, 5.6, 5.5))

# 指定保存路径
save_path <- "/Users/profxie/Documents/seaice2.csv"

# 写入 CSV 文件
write.csv(seaice.data, file = save_path)

2、TXT文件

TXT(文本)文件则具有高度灵活性、易于编辑和轻量级的优点。由于没有特定的格式限制,TXT文件可以存储任何类型的文本数据,适用于各种数据存储需求。TXT文件可以用任何文本编辑器打开和编辑,方便进行手动修改,而且通常比其他格式的文件更小,适合存储简单的文本数据。然而,TXT文件也有一些缺点,包括缺乏结构化支持,这使得数据解析和处理可能需要额外的工作来定义和识别数据结构。此外,由于没有内置的结构化支持,处理和解析大规模数据时效率较低。对比CSV文件,CSV文件适用于需要简单、结构化数据存储和交换的场景,而TXT文件则更适合灵活、非结构化的数据存储需求。选择哪种格式取决于具体的应用场景和数据处理需求。

TXT格式是微软操作系统上附带的一种常见文本格式,早在DOS时代就已被广泛应用。尽管建议使用read.csv()write.csv()函数处理此类文件,但read.table()write.table()函数也能完成相关的读取和保存操作,感兴趣的读者可以自行尝试。

# 从工作目录读取名为seaice.txt的TXT文件,并将其存储在数据框seaice.data中
seaice.data <- read.table("seaice.txt")

# 将数据框seaice.data保存为名为seaice2.txt的TXT文件
write.csv(seaice.data, "seaice2.txt")

三、Excel的格式文件

 ........

欢迎订阅我们专栏,深度系统地学习R语言。 

为帮助大家更出色地掌握临床统计、数据挖掘以及人工智能建模的入门知识和应用,由于众多同学在计算机编程上经验欠缺,特此开设《用R 探索医药数据科学》专栏。该专栏每周至少会定期更新三篇,直到整个专栏更新完成。每篇文章都在 5000 字以上,质量平均分高达 94 分。还要提醒大家的是,每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!

专栏《用R 探索医药数据科学》链接:https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482

​​​

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据科学和人工智能兴趣组

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值