下面内容摘录自《用R探索医药数据科学》专栏文章的部分内容。
1)栏目后续章节的文章将深入概括R语言在临床研究和新药创新领域的应用,填补了国内R教材中尚未广泛覆盖的部分内容。
2)专栏每篇文章都在 5000 字以上,质量平均分高达 94 分。已发表章节也会增加新的文章,已发表的文章也会更新版本,可留意专栏内容和题目信息。
3)由于每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!看全文请点击下面链接。
欢迎订阅我们专栏
.......前面部分请点击上面链接看原文(原文7833字)
一、RDS或RData格式文件
........
二、CSV或TXT格式
CSV(Comma-Separated Values)和TXT(文本)文件格式也是常见的数据文件类型之一。
1、CSV文件
CSV文件具有简单易用、广泛兼容、人类可读和高压缩性的优点。由于其格式简单、使用逗号分隔值,CSV文件很容易创建和解析,几乎所有的数据库和电子表格软件都支持这种格式,使得在不同应用程序之间传输数据变得方便。此外,CSV文件是纯文本文件,可以用任何文本编辑器查看和修改,其简单的结构也使得它们可以被高效压缩,节省存储空间。然而,CSV文件也有一些缺点,例如不支持嵌套数据结构或多表关系,无法表示层次结构或对象数据。不同应用程序对CSV格式的实现可能有所不同,导致数据解析时出现问题,而且CSV文件不包含数据类型信息,所有数据都被视为字符串,这可能导致数据处理时的类型转换问题。
在Windows记事本等工具中打开CSV文件,可以发现其格式非常简单:文件中的每一行代表一个观测值,每一列代表一个变量,主要保存文本信息。建议使用read.csv()
函数读取CSV文件。如果文件seaice.csv
位于工作目录下,可以直接读取该文件:
# 从工作目录读取名为seaice.csv的CSV文件,并将其存储在数据框seaice.data中
seaice.data <- read.csv("seaice.csv")
# 从指定路径读取名为seaice.csv的CSV文件,并将其存储在数据框seaice.data中
seaice.data <- read.csv("/Users/.../R_WORD_D/seaice.csv")
read.csv()
是R语言中用于读取CSV(逗号分隔值)文件的一个常用函数。它将CSV文件导入R,并将数据存储为数据框(data frame)格式。基本语法为read.csv(file, header = TRUE, sep = ",", dec = ".", ...)
,其中file
为文件路径或URL,header
为逻辑值表示是否将第一行作为列名(默认为TRUE),sep
为字段分隔符(默认为逗号","),dec
为小数点字符(默认为".")。默认情况下,read.csv()
使用逗号作为分隔符、点作为小数点,并将第一行作为列名。该函数具有很高的灵活性,可以通过参数调整来读取不同格式的CSV文件。
使用write.csv()
函数可以将数据集seaice.data
保存为名为seaice2.csv
的CSV文件,存储在工作目录中:
# 将数据框seaice.data保存为名为seaice2.csv的CSV文件
write.csv(seaice.data, "seaice2.csv")
在上述代码中,write.csv()
函数的第一个参数是要写入的数据框,第二个参数是保存CSV文件的名称。
当我们需要将文件保存到工作目录以外的其他路径时,可以通过指定完整的文件路径来实现。下面我把含有 seaice.data 数据集的文件放在Document文件夹里,因为我的路径是 /Users/profxie/Documents/ ,所以我指定了这个路径,把文件保存在起来。
# 假设 seaice.data 是你的数据框
seaice.data <- data.frame(Year = c(2000, 2001, 2002),
Extent = c(5.7, 5.6, 5.5))
# 指定保存路径
save_path <- "/Users/profxie/Documents/seaice2.csv"
# 写入 CSV 文件
write.csv(seaice.data, file = save_path)
2、TXT文件
TXT(文本)文件则具有高度灵活性、易于编辑和轻量级的优点。由于没有特定的格式限制,TXT文件可以存储任何类型的文本数据,适用于各种数据存储需求。TXT文件可以用任何文本编辑器打开和编辑,方便进行手动修改,而且通常比其他格式的文件更小,适合存储简单的文本数据。然而,TXT文件也有一些缺点,包括缺乏结构化支持,这使得数据解析和处理可能需要额外的工作来定义和识别数据结构。此外,由于没有内置的结构化支持,处理和解析大规模数据时效率较低。对比CSV文件,CSV文件适用于需要简单、结构化数据存储和交换的场景,而TXT文件则更适合灵活、非结构化的数据存储需求。选择哪种格式取决于具体的应用场景和数据处理需求。
TXT格式是微软操作系统上附带的一种常见文本格式,早在DOS时代就已被广泛应用。尽管建议使用read.csv()
和write.csv()
函数处理此类文件,但read.table()
和write.table()
函数也能完成相关的读取和保存操作,感兴趣的读者可以自行尝试。
# 从工作目录读取名为seaice.txt的TXT文件,并将其存储在数据框seaice.data中
seaice.data <- read.table("seaice.txt")
# 将数据框seaice.data保存为名为seaice2.txt的TXT文件
write.csv(seaice.data, "seaice2.txt")
三、Excel的格式文件
Excel文件是日常工作中最常见的数据处理软件之一,虽然有时候,我们可以将EXCEL的文件转化为更加普遍的CSV格式。尽管CSV格式在数据处理和交换中非常流行,但在处理复杂的Excel文件时,例如需要保留公式、格式或多个工作表的文件,直接读取Excel文件更为方便和高效。
Excel文件通常有两种格式:.xls
和.xlsx
。.xls
是早期的Excel版本使用的格式,而.xlsx
是从Excel 2007版本开始使用的更新格式。.xlsx
格式基于XML标准,支持更大的数据容量和更复杂的格式设置。
........
欢迎订阅我们专栏,深度系统地学习R语言。
为帮助大家更出色地掌握临床统计、数据挖掘以及人工智能建模的入门知识和应用,由于众多同学在计算机编程上经验欠缺,特此开设《用R 探索医药数据科学》专栏。该专栏每周至少会定期更新三篇,直到整个专栏更新完成。每篇文章都在 5000 字以上,质量平均分高达 94 分。还要提醒大家的是,每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!
专栏《用R 探索医药数据科学》链接:https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482