R语言 从excel导入数据,由于内容有excel的换行符导致列数不一致的问题
问题描述
数据在excel中,一般导入方法是通过read.table(“clipboard”, sep = ‘\t’)的方法读取数据。
但是有时候excel中会有某一单元格通过(alt + 回车)数据换行的情况,导致读取错位,提示某一行的列数不一致:
Error in scan(file = file, what = what, sep = sep, quote = quote, dec = dec, :
line 269 did not have 26 elements
如果把数据放到emeditor中去查看,会发现数据中确实会有很多换行
解决办法
1. 在excel中先通过trim和clean函数进行预处理
新建一个sheet,输入公式
=CLEAN(TRIM(表名!A1))
然后横向手动拖拉填充 + 纵向填充(快捷键crtl+D),具体操作手法可以百度一下,目的是把源表的每一个数据通过clean清除换行空格等特殊字符
2. 读入数据
注:这里是用readr包的函数读入,用内置的read.table或者read.csv依然会报错
简单的方法是,将清理后的数据复制粘贴到文本编辑器,保存为txt,通过readr包的read_table2读入
library(readr)
t2 = read_table2("C:/Users/admin/Desktop/tmp.txt")
如果想保存为csv,需通过emeditor转为csv后,通过read_csv读入
- 复制进emeditor后先用制表符分隔
- 再转为用逗号分隔的csv文件
点击这个魔法棒的图标后,右侧会出现csv转换器
选择逗号分隔后,点击立即转换,完成后这个文件就已经是转为了标准格式的csv文件了,另存为csv。
可选择文件编码
3. 用readr包的read_csv读取文件
library(readr)
t2 = read_csv("C:/Users/admin/Desktop/tmp.csv")