在将从网页上爬取下来的中文,导入R中产生一系列问题,包括格式问题和乱码问题,在网上找了好多方法,转换了各种编码格式,不管用==解现在总算解决了,又怕自己以后忘掉,就想把它记下,以后再碰到的时候就不会有问题了。
在含有中文文本的csv文件导入R中有可能碰到三个问题:
1. 无法导入
2. 格式问题,一列数据导入后变成多列:
源数据如下所示:
导入后,数据变成多列数据,
3. 乱码问题, 如上图所示,中文均为乱码。
将编码转成utf8,gbk,均无法解决乱码问题
解决方法
第一个问题是数据无法导入的问题,错误是“列的数目要比列的名字要多”,也就意味着数据中一列导入后产生了多列。本来有n列,但是导入以后产生了n+1列,那么列名就不够用了。
要想导入不报错,可以把列名去掉,添加参数hea