R语言清洗与处理数据常用代码段

最新推荐文章于 2024-09-14 17:22:51 发布

XXX美琳

最新推荐文章于 2024-09-14 17:22:51 发布

阅读量564

点赞数

文章标签： r语言 python 开发语言

本文链接：https://blog.csdn.net/jiangmeilinabcd/article/details/133268652

版权

去掉数据框df的某一列：

# 删除不必要的变量
data$unnecessary_var <- NULL

选择需要的列进行读入数据框：

# 选择需要的列
selected_cols <- c("col1", "col2", "col3")
data <- fread("data.csv", select = selected_cols)

逐块读取数据：如果数据集太大无法一次性读取到内存中，可以尝试使用逐块读取的方式，将数据分割成较小的块进行处理。可以使用data.table包中的fread函数的nrows参数来指定每次读取的行数。

library(data.table)

chunk_size <- 100000
data <- fread("data.csv", nrows = chunk_size)
while (!feof("data.csv")) {
  next_chunk <- fread("data.csv", nrows = chunk_size)
  data <- rbind(data, next_chunk)
}

使用其他工具：可以考虑使用其他工具来读取和处理数据。例如，可以尝试使用readr包的read_csv函数，它使用了更少的内存。

library(readr)

data <- read_csv("data.csv")

若时间为标准的date类可用year()、month()等函数提取相应数字；若时间是字符串类型表示则用下列方式截取：

str_extract("Hello, world!", "\\w+") # 提取所有的单词
str_extract("2021-01-01", "\\d{4}") # 提取日期中的年份

各种编码之间的相互转换

除了CP936（简体中文编码）和UTF-8（通用字符编码）之外，常见的字符串类型还包括以下几种：

CP1252（西欧语言编码）：它是Windows默认的字符编码，适用于包含英语、法语、德语等西欧语言的文本。CP1252编码支持更多的特殊字符和符号，比如©、®、€等。
GBK（国标码）：它是GB2312（汉字标准码）的扩展，适用于中文文本。GBK编码支持更多的汉字字符，覆盖了简体和繁体中文。
Big5（繁体中文编码）：它主要用于香港、台湾和一些海外华人地区的繁体中文文本。Big5编码使用更多的位表示繁体中文字符。
ISO-8859-1（拉丁字母编码）：也被称为Latin-1，它是ISO推荐的ASCII字符扩展编码，适用于大多数欧洲语言。ISO-8859-1编码容纳了西欧语言的大部分字符。

这些字符编码有各自的特点和适用范围，选择适当的字符编码取决于文本内容和目标使用环境。对于国际化或多语言支持的应用，UTF-8是推荐的编码方式，因为它可以兼容多种语言和字符集。

# 将UTF-8编码的字符串转换为GBK编码

utf8_str <- "你好，世界" gbk_str <- iconv(utf8_str, from = "UTF-8", to = "GBK") print(gbk_str) # 输出：涓浗锛屽叡浜�

# 将GBK编码的字符串转换为UTF-8编码 gbk_str <- "涓浗锛屽叡浜�"

utf8_str <- iconv(gbk_str, from = "GBK", to = "UTF-8") print(utf8_str) # 输出：你好，世界

# 将CP936编码的字符串转换为UTF-8编码 cp936_str <- "你好，世界"

utf8_str <- iconv(cp936_str, from = "CP936", to = "UTF-8") print(utf8_str) # 输出：你好，世界

# 将UTF-8编码的字符串转换为CP936编码 utf8_str <- "你好，世界"

cp936_str <- iconv(utf8_str, from = "UTF-8", to = "CP936") print(cp936_str) # 输出：浣犲ソ锛屽師濮�