小妹名为gbl,这是我的第一篇博文,初学R语言,遇到了大大小小的问题,写于此处,囧(人生总是如此不顺~)。
大家都知道,使用一个软件,首先就是要导入数据(像我这么懒的人才不会手动输入)虽然简单,但有时并不是一帆风顺。那么,问题来了!
比如,从 sample.csv中导入数据到RStudio ,常用的读入格式是: data<-read.csv("sample.csv"),或许在别人那里这样就导入成功了,在我这却不行,下面是我导入数据的艰难旅程。
文件里的内容是这样的:
words | freq |
不 | 1 |
忘 | 1 |
初 | 3 |
心 | 2 |
方 | 3 |
得 | 3 |
始 | 3 |
终 | 10 |
输入:data<-read.csv("sample.csv")
错误提示:Error in type.convert(data[[i]], as.is = as.is[i], dec = dec, numerals = numerals, : '<b2><bb>'多字节字符串有错
(lym提示我可能是编码的问题,我就把所有的汉字换成了字母来验证,果然,lym的猜想是对的)
有事找度娘,百度一下,常用的编码方式是GBK和UTF-8。
输入:data<-read.csv("sample.csv",encoding = 'UTF-8')
错误提示:Error in type.convert(data[[i]], as.is = as.is[i], dec = dec, numerals = numerals, : '<b2><bb>'多字节字符串有错
输入:data<-read.csv("sample.csv",encoding = 'GBK')
错误提示:Error in type.convert(data[[i]], as.is = as.is[i], dec = dec, numerals = numerals, : '<b2><bb>'多字节字符串有错
输入:data<-read.csv("sample.csv",fileEncoding = 'utf-8')
warning:In read.table(file = file, header = header, sep = sep, quote = quote, : 输入链结'sample.csv'内的输入不对
输入:data<-read.csv("sample.csv",fileEncoding = 'GBK') 哇咔咔,终于对了!
>data
>words freq
1 不 1
2 忘 1
3 初 3
4 心 2
5 方 3
6 得 3
7 始 3
8 终 10
至此,大功告成,我好激动哇!
接着,我尝试读入txt文件里的数据也成功了!
开心之余,做了一简单词云图,处女作,有点丑,各位大侠莫怪、莫怪~
总结:
常见编码方式有GBK和UTF-8两种,不同的电脑也有所不同,如果出现了编码问题,可以尝试将编码修改为GBK或UTF-8,RStudio数据读入格式中修改方式有两种:fileEncoding和encoding,可分别尝试。总有一种解决方案适合你!