r语言读html格式数据很慢,R语言答疑:txt文件无法被R正确读入

力力nevergg

于 2021-06-03 15:41:16 发布

阅读量681

点赞数 1

文章标签： r语言读html格式数据很慢

R语言中，txt无法正确的读入的可能性有很多种。有位网友提供的一个无法正确读入的文本文件，使用记事本打开，看起来一切正确(见图片)。

但读入的时候，报错如下。

>read.table("1.txt")

Error intype.convert(data[], as.is =

as.is, dec = dec, numerals = numerals, :

'<67>'多字节字符串有错

此外，Warning messages:

Inread.table("1.txt") : line 1 appears

to contain embedded nulls

Inread.table("1.txt") : line 2 appears

to contain embedded nulls

Inread.table("1.txt") : line 3 appears

to contain embedded nulls

Inread.table("1.txt") : line 4 appears

to contain embedded nulls

Inread.table("1.txt") : line 5 appears

to contain embedded nulls

Inscan(file = file, what = what, sep =

sep, quote = quote, dec = dec,:embedded nul(s) found in input

问题解决

报错提示，文本中包含嵌入的null符号，所以无法正确读取。那么为什么使用记事本打开却一切正常呢？我们试试使用专业的文本编辑器VIM(如果有问题，可以百度VIM)打开(见图片，原文件-VIM)。

注意了，与记事本看起来多了很多符号。因为在记事本下，文本中的很多异常符号是显示不出来的。

符号解释

^@：代表“NULL”符号，本身代表空白，所以在记事本下不显示。

^M: 其实代表window下的回车符。

以上两个符号需要被删除的，否者R可能出现读取错误。

解决方法

1)

将1.txt使用记事本打开，然后复制到excel里。接着将excel里的文本在复制一遍，粘贴到一个新建的txt文件

2.txt里面。再次使用VIM打开，看起来就一切正常了(见图片修改后-VIM)。

然后，R就可以正常读入了。

2)

在VIM下，将异常符号替换去除。如果熟悉使用VIM的同学，可以使用以下两个命令替换异常符号：

%s/\r//g

#备注：替换掉^M

%s/^@//g

#备注：替换掉^@,

^@不能直接输入，否者会报错。正确的方法是Shift Ctrl 2 来输入^@

另外在R最新版本 3.2.3 的read.table命令

多了一个选项：skipNUL。如果skipNul=TRUE可以自动忽略文件中的NULL符号。不过在这个例子中，由于异常符号^M的存在，即使使用skipNul=TRUE依然是会报错的。需要将^M手动替换去除。数据分析师培训

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
r语言读html格式数据很慢,R语言答疑:txt文件无法被R正确读入

R语言中，txt无法正确的读入的可能性有很多种。有位网友提供的一个无法正确读入的文本文件，使用记事本打开，看起来一切正确(见图片)。但读入的时候，报错如下。>read.table("1.txt")Error intype.convert(data[], as.is =as.is, dec = dec, numerals = numerals, :'<67>'多字节字符串有错此外...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。