Java中的encoding以及reader API

我们知道,Unicode是现在包含所有语言字符的编码方式,但是在日常学习和开发中,我们还是会接触到其他不同的encoding,比如GB18030, ISO-8859-1等。那么对于不同的encoding,Java读取文件时候是怎么样处理的呢?

首先,JVM有个属性设置default encoding,JVM在没有指定encoding的情况下会使用default encoding进行IO操作。

在eclipse里面,可以在Properties一栏对单个Java文件或者整个项目进行Text file encoding的设置。这个设置,一方面告诉eclipse当前Java文件的encoding以便进行compile;另一方面也是启动JVM以后的IO操作等的 default encoding。

可以用如下方法得到default encoding:

		Charset def = Charset.defaultCharset();
		System.out.println("defaultCharset == "+def);

defaultCharset == ISO-8859-1



可以在JVM启动的时候加上参数告诉JVM default encoding是什么,方法是 –Dfile.encoding = XXXX


当JVM以default encoding启动程序后,根据文件本身的encoding和default encoding会产生多种结果,如下表 (注:这里的文件内容都是不超过ASCII的 codepoint,所以除了UTF 8 with BOM的文件多了BOM头,其他的内容都相同;因为如果有非ASCII的字符出现,根据编码的规则,不同encoding读取肯定有问题)

default(file)
encoding
ASCII
文件
UTF8
文件
UTF 8 with BOM 文件
UTF8OKOKOK, read (EF BB BF)
后面parse有可能引起问题
GB18030OKOKException
defaultCharset == GB18030
sun.io.MalformedInputException
at sun.io.ByteToCharGB18030.convert(ByteToCharGB18030.java:171)
at sun.nio.cs.StreamDecoder$ConverterSD.convertInto(StreamDecoder.java:314)
at sun.nio.cs.StreamDecoder$ConverterSD.implRead(StreamDecoder.java:364)
at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:250)
at java.io.InputStreamReader.read(InputStreamReader.java:212)
at java.io.BufferedReader.fill(BufferedReader.java:157)
at java.io.BufferedReader.readLine(BufferedReader.java:320)
at java.io.BufferedReader.readLine(BufferedReader.java:383)
at TestRead.main(TestRead.java:35)
ISO-8859-1OKOKCan read, but read wrongly
(EF BB BF) 
(C3 AF C2 BB C2 BF)

所以,读UTF8 with BOM必须声明为UTF8的encoding,并且对读到的BOM头EF BB BF自行进行处理。因为Java本身(1.6之前)并不会忽略掉BOM
See: (http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=4508058) UTF-8 encoding does not recognize initial BOM


Question 1: 在ISO-8859-1的情况下读UTF8 with BOM,发现readline()会读成(EF BB BF) ->
(C3 AF C2 BB C2 BF),但是用read() 却可以读出前三个char: EF BB BF。事实上,这两个函数都会调用InputStream的read 方法,也就是有decode产生

default(file)
encoding
Readline()Read()
UTF8OK read (EF BB BF)
后面parse有可能引起问题
OK, read the three bytes of BOM:
EF BB BF
GB18030Exception
defaultCharset == GB18030
sun.io.MalformedInputException
at sun.io.ByteToCharGB18030.convert(ByteToCharGB18030.java:171)
at sun.nio.cs.StreamDecoder$ConverterSD.convertInto(StreamDecoder.java:314)
at sun.nio.cs.StreamDecoder$ConverterSD.implRead(StreamDecoder.java:364)
at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:250)
at java.io.InputStreamReader.read(InputStreamReader.java:212)
at java.io.BufferedReader.fill(BufferedReader.java:157)
at java.io.BufferedReader.readLine(BufferedReader.java:320)
at java.io.BufferedReader.readLine(BufferedReader.java:383)
at TestRead.main(TestRead.java:35)
Exception
defaultCharset == GB18030
sun.io.MalformedInputException
at sun.io.ByteToCharGB18030.convert(ByteToCharGB18030.java:171)
at sun.nio.cs.StreamDecoder$ConverterSD.convertInto(StreamDecoder.java:314)
at sun.nio.cs.StreamDecoder$ConverterSD.implRead(StreamDecoder.java:364)
at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:250)
at java.io.InputStreamReader.read(InputStreamReader.java:212)
at java.io.BufferedReader.fill(BufferedReader.java:157)
at java.io.BufferedReader.readLine(BufferedReader.java:320)
at java.io.BufferedReader.readLine(BufferedReader.java:383)
at TestRead.main(TestRead.java:35)
ISO-8859-1Can read, but read wrongly
(EF BB BF) ->
(C3 AF C2 BB C2 BF)
OK, read the three bytes of BOM:
EF BB BF

读写XML 文件的利器JDOM 本身可以处理BOM(有无BOM都可以handle),所以对于UTF8 with BOM,送给Jdom是没有问题的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要写一个 Java API 接口,可以按照以下步骤进行: 1. 创建一个 Java 类,定义 API 接口的请求参数和响应结果 ```java public class MyApiRequest { private String param1; private int param2; // 省略 getter 和 setter 方法 public static class MyApiResponse { private int code; private String message; private Object data; // 省略 getter 和 setter 方法 } } ``` 2. 定义 API 接口的处理逻辑 ```java public class MyApiHandler { public static MyApiRequest.MyApiResponse handle(MyApiRequest request) { // 处理请求逻辑 MyApiRequest.MyApiResponse response = new MyApiRequest.MyApiResponse(); response.setCode(200); response.setMessage("OK"); response.setData("Hello, " + request.getParam1() + "!"); return response; } } ``` 3. 创建一个 Servlet 类,映射 API 接口的 URL ```java @WebServlet(urlPatterns = "/api/myApi") public class MyApiServlet extends HttpServlet { protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { // 读取请求参数 BufferedReader reader = request.getReader(); StringBuilder requestBodyBuilder = new StringBuilder(); String line = null; while ((line = reader.readLine()) != null) { requestBodyBuilder.append(line); } reader.close(); // 解析请求参数 MyApiRequest myApiRequest = new Gson().fromJson(requestBodyBuilder.toString(), MyApiRequest.class); // 处理请求 MyApiRequest.MyApiResponse myApiResponse = MyApiHandler.handle(myApiRequest); // 返回响应结果 response.setContentType("application/json"); response.setCharacterEncoding("UTF-8"); PrintWriter writer = response.getWriter(); writer.write(new Gson().toJson(myApiResponse)); writer.flush(); writer.close(); } } ``` 4. 部署 Servlet 应用程序 将上面的 Java 类编译成 Servlet 应用程序,并部署到 Tomcat 等 Servlet 容器。如果使用 Maven 管理 Java 项目,可以使用 Maven 的 Tomcat 插件将项目部署到 Tomcat 。 5. 测试 API 接口 启动 Tomcat 服务器后,使用 HTTP 客户端(如 Postman)向 API 接口的 URL 发送请求,传递请求参数,即可测试 API 接口的功能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值