R读取中文文件的问题

最新推荐文章于 2021-10-23 21:00:00 发布

weixin_33827731

最新推荐文章于 2021-10-23 21:00:00 发布

阅读量792

点赞数

文章标签： r语言

原文链接：http://www.cnblogs.com/kidoln/p/3876140.html

版权

用R读取中文文本（UTF-8），经常无端出错，常常指定了sep="\t“，结果仍然有字段内部仍然包含"\t"。分隔符换成 ”,"也不行！

更郁闷的是，read.table 读出来的域数量，竟然比 count.fields 返回的少。

最终解决的方法是，在分隔符前后加上空格。读取的时候再把空格去掉，这样问题就解决了。有相同问题的可以试试。

cat  data.csv | iconv -f UTF-16 -t UTF-8 | sed "s/\t/ \t /g" > df.csv
read.csv("df.csv", sep="\t", header=TRUE, encoding="UTF-8", strip.white=TRUE)

转载于:https://www.cnblogs.com/kidoln/p/3876140.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注