r语言读html格式数据很慢,R语言答疑:txt文件无法被R正确读入

R语言中,txt无法正确的读入的可能性有很多种。有位网友提供的一个无法正确读入的文本文件,使用记事本打开,看起来一切正确(见图片)。

a4c26d1e5885305701be709a3d33442f.png

但读入的时候,报错如下。

>read.table("1.txt")

Error intype.convert(data[], as.is =

as.is, dec = dec, numerals = numerals,  :

'<67>'多字节字符串有错

此外,Warning messages:

Inread.table("1.txt") : line 1 appears

to contain embedded nulls

Inread.table("1.txt") : line 2 appears

to contain embedded nulls

Inread.table("1.txt") : line 3 appears

to contain embedded nulls

Inread.table("1.txt") : line 4 appears

to contain embedded nulls

Inread.table("1.txt") : line 5 appears

to contain embedded nulls

Inscan(file = file, what = what, sep =

sep, quote = quote, dec = dec,:embedded nul(s) found in input

问题解决

报错提示,文本中包含嵌入的null符号,所以无法正确读取。那么为什么使用记事本打开却一切正常呢?我们试试使用专业的文本编辑器VIM(如果有问题,可以百度VIM)打开(见图片,原文件-VIM)。

a4c26d1e5885305701be709a3d33442f.png

注意了,与记事本看起来多了很多符号。因为在记事本下,文本中的很多异常符号是显示不出来的。

符号解释

^@:代表“NULL”符号,本身代表空白,所以在记事本下不显示。

^M: 其实代表window下的回车符。

以上两个符号需要被删除的,否者R可能出现读取错误。

解决方法

1)

将1.txt使用记事本打开,然后复制到excel里。接着将excel里的文本在复制一遍,粘贴到一个新建的txt文件

2.txt里面。再次使用VIM打开,看起来就一切正常了(见图片 修改后-VIM)。

a4c26d1e5885305701be709a3d33442f.png

然后,R就可以正常读入了。

2)

在VIM下,将异常符号替换去除。如果熟悉使用VIM的同学,可以使用以下两个命令替换异常符号:

%s/\r//g

#备注:替换掉^M

%s/^@//g

#备注:替换掉^@,

^@不能直接输入,否者会报错。正确的方法是Shift Ctrl 2 来输入^@

另外在R最新版本 3.2.3 的read.table命令

多了一个选项:skipNUL。如果skipNul=TRUE可以自动忽略文件中的NULL符号。不过在这个例子中,由于异常符号^M的存在,即使使用skipNul=TRUE依然是会报错的。需要将^M手动替换去除。数据分析师培训

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值