R语言read.csv乱码问题UTF-8 BOM X.U.FEFF

最新推荐文章于 2025-03-25 10:34:16 发布

ofoliao

最新推荐文章于 2025-03-25 10:34:16 发布

阅读量1.6w

点赞数 20

分类专栏： R 文章标签：乱码 csv r语言

本文链接：https://blog.csdn.net/ofoliao/article/details/106431217

版权

R 专栏收录该内容

40 篇文章

订阅专栏

本文介绍了解决R语言读取CSV文件时出现乱码的问题，包括检查区域设置、使用正确的文件编码参数，以及如何处理带有BOM的UTF-8文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

若使用R语言调用data <- read.csv("dataset.csv")文件出现了乱码，解决的方法简单整理如下：

查看R语言运行环境的区域(locale)设置

> Sys.getlocale(category = "LC_ALL")
[1] "LC_COLLATE=Chinese (Simplified)_China.936;LC_CTYPE=Chinese (Simplified)_China.936;LC_MONETARY=Chinese (Simplified)_China.936;LC_NUMERIC=C;LC_TIME=Chinese (Simplified)_China.936"

若区域设置的字符集LC_CTYPE为中文，一般可以断定dataset.csv文件是UTF-8文件格式，此时可以加一个参数：

data <- read.csv("dataset.csv", fileEncoding = "UTF-8")

若还是不能读取数据集，或者使用fileEncoding = "UTF-8"时header出现了X.U.FEFF奇怪的字样，说明UTF-8格式的文件头带了BOM（byte oreder mark，字节顺序标记），此时应该换成fileEncoding = "UTF-8-BOM"：

data <- read.csv("dataset.csv", fileEncoding = "UTF-8-BOM")

注意：

不要使用encoding = "UTF-8"的参数，实际上encoding的参数相当于分两个步骤:
# 1. 读入数据
data <- read.csv("dataset.csv")	
# 2. 对data中有所的字符串进行encoding转码，比如，
# 带中文的factor(或是character)，实际上调用了：
 Encoding(levels(data[,1])  <- "UTF-8"  # 对应列是factor 情形
 # 或
 Encoding(data[,1]) <- "UTF-8"    # 对应列是character情形
不要fileEncoding和encoding两个参数同时使用
原因如同注意1，若是fileEncoding和encoding同时指定`UTF-8’, 相当于对字符串进行两次转码。