Java Scanner 读取不了完整句子,问题分析与解决办法

今天程序员David在测试自己的程序时,发现 Scanner 读取进来的句子断开了,只读取了半句,然后就没有了。代码如下:

while (scanner.hasNext()) {
	String csvString = scanner.next(); // 只读取了一半句子,后面就没有了,while loop 也退出了
}

寻找原因

通过寻找原因,David点进了 Scanner 的 next() 方法查看源代码。在 next() 方法里,我们可以发现调用了 readinput() 方法。通过名字可以判断, readinput() 的主要职责应该就是读取文件。

public String next() {
	// ...
  if (needInput)
      readInput(); // 此方法负责读取 input
  else
      throwFor();
}

接着我们需要点进 readInput() 方法查看具体发生了什么事。通过查看源代码,我们可以发现,当Scanner在读取前半段的句子时,一切都很顺利,但是当读取到后半段的句子时,却抛出了一个异常。

private void readInput() {
		// ...
    try {
        n = source.read(buf);
    } catch (IOException ioe) { // 读取后半段句子时抛出了异常
        lastException = ioe;
        n = -1;
    }
		// ...
}

这里值得注意的是,这里抛出的异常并没有打印在控制台里,而是被储存了起来。Scanner的 next() 方法也不会给出任何的提示。因此,异常虽然发生了,但是从控制台里却看不出任何问题。

Scanner 里有一个 public 方法可以让我们查看最近一次发生的异常,如果我们怀疑 Scanner 没有正常工作,可以调用该方法来查看最近的异常。

public IOException ioException() {
	return lastException;
}

异常 MalformedInputException

通过查找最近的异常,我们发现 MalformedInputException 就是整个问题的根本原因。以下是甲骨文官方文档对该异常的介绍:

Checked exception thrown when an input byte sequence is not legal for given charset, or an input character sequence is not a legal sixteen-bit Unicode sequence.

链接: https://docs.oracle.com/javase/8/docs/api/java/nio/charset/MalformedInputException.html

阅读文档的介绍之后,我们可以得出一个结论,那就是在我们读取的文件中,含有不同的 character encoding,从而导致 Scanner 无法识别不同 encoding 之下的 character。举个例子,Scanner 默认使用 UTF-8 encoding 来读取文件,如果我们的文件中含有 ANSI encoding 的 characters,那么 Scanner 就会出现 MalformedInputException

例子

有一个很简单的方法可以帮助我们查看文本来找出问题。我们可以使用 notepad++ 打开我们的文件,然后从上方的菜单中选择 Encoding。从下图可以看到,当我们将 encoding 选择为 ANSI 的时候,文件里的句子没有任何问题。但是,当我们将 encoding 设为 UTF-8 时,我们有几个字符变成了乱码。这就表示该字符在 ANSI 与 UTF-8 中的编码方式不一样。因此,我们需要小心处理这类字符的编码。

在这里插入图片描述
在这里插入图片描述

解决办法

对于这类问题,我们有很多解决的办法。不同的解决办法针对于不同的情况。

解决办法一:手动修改文件中的字符

最简单的解决办法就是,手动修改文档中的字符。举个例子,我们可以在 notepad++ encoding 为 ANSI的情况下,复制有问题的字符,接着将 encoding 改为 UTF-8,然后在 notepad++ 里贴上我们刚刚复制的字符,notepad++ 就会自动帮我们将贴上的 ANSI 字符转换成 UTF-8 编码字符。

解决办法二:确保 读取/存储 文件时,使用统一的 encoding

这个解决办法正好非常符合David自己的情况。在储存与读取文件时,一律指定使用 UTF-8 字符。

String encoding = "UTF-8";
Scanner scanner = new Scanner(new File(path), encoding); // 读取
PrintWriter pw = new PrintWriter(csvOutputFile, encoding); // 存储

由于 Java 里的标准字符集里面没有 ANSI,所以David建议各位统一使用 UTF-8 字符。

Java StandardCharsets 链接:

https://docs.oracle.com/javase/7/docs/api/java/nio/charset/StandardCharsets.html

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值