linux r语言指定编码,R语言的编码问题

最新推荐文章于 2022-11-11 11:42:58 发布

Mag1cal

最新推荐文章于 2022-11-11 11:42:58 发布

阅读量270

点赞数

文章标签： linux r语言指定编码

Windows系统下：

read.csv()和read.table()方法不指定文件格式时，默认读取的文件是GBK(GB2312)格式。Rstudio里面有设置默认文本编码方式，但是修改前后读入中文数据情况都一样。

#####re

"\t",fileEncoding = "GB2312"， encoding = “GB2312”)

#####re

"UTF-8"，encoding = "UTF-8")

Linux(我使用的Redhat)系统下：

系统指定中文编码方式是UTF-8，所以read.csv()和read.table()都要求UTF-8。

如下两个文件，分别是UTF-8格式和GBK格式，首先用read.csv读取，可以看到不指定编码方式时，读取UTF-8格式文件是乱码。用encoding指定读取的文件编码方式为UTF-8后，正常。这样看起来read.csv()方法读取UTF-8好像可行？

那么我们再来看一个例子，相同的数据，只是最后多增加一列中文。同样，上面三种方式，读取UTF-8的时候问题直接变成了读取出错，“列的数目比列的名字要多”，并且制定编码方式为UTF-8也无法拯救你了。为什么会这样呢？

提示意思是，列名少了，那就去掉表头header=F就行了，结果如下，还是乱码，并且原本四列数据读进来后变成了七列。虽然指定encoding为UTF-8后没有了乱码，但是读取时行之间会错乱。但是用fileEncoding就没有问题了！

上述，总结而言，使用read.csv()时，有中文的话，请务必保证你的文件是GBK编码格式的。或者用fileEncoding来指定编码格式，不要用encoding！

用同样的数据来看read.table方法，只是需要多指定一个sep=”,”。同样，指定encoding无效，指定fileEncoding有效。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
linux r语言指定编码,R语言的编码问题

Windows系统下：read.csv()和read.table()方法不指定文件格式时，默认读取的文件是GBK(GB2312)格式。Rstudio里面有设置默认文本编码方式，但是修改前后读入中文数据情况都一样。#####re "\t",fileEncoding = "GB2312"， encoding = “GB2312”)#####re"UTF-8"，encoding = "UTF-8")Li...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。