(转载csdn)Tomcat的中文处理（一,二）

最新推荐文章于 2024-10-31 11:13:17 发布

bohemia

最新推荐文章于 2024-10-31 11:13:17 发布

阅读量1.1k

点赞数

分类专栏： Java (mainly J2EE) 文章标签： tomcat encoding string parameters jsp servlet

Java (mainly J2EE) 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

最近一段时间.都在处理有关J2EE开发中的中文编码的问题..所以搜集了一些资料.希望对大家也能够有所帮助.

Tomcat的中文处理（一）：

看到很多朋友问关于中文的处理问题，下面我们以tomcat4.0为servlet，jsp引擎来说说unicode的处理。

1) 从客户端接受请求

当客户端请求tomcat的一个jsp文档的时候，tomcat会构造相应的httpServletRequest实现类的实例来代表客户端，通过对流servletInputStream读，我们可以得到客户端来的数据。

在jsp中我们通常使用的request.getParameter()来得到参数的值，这个函数的背后到底怎么样的呢？怎么样对String编码的呢？

通过tomcat的httpServletRequest实现类源代码考察：

public String getParameter(String name)

{

parseParameters();/处理parameters

String values[] = (String[])parameters.get(name);//得到该参数名字对应的Object(是一个数组)

if(values != null)

{

return values[0];

} else

{

return null;

}

其中parameters是request的一个map类型的数据成员，用来存放接受到的客户端的数据。也就是说每当客户端请求的时候，tomcat构造一个request实例，该实例有一个parameters用来存放从servlet实例的写入流的读来的客户端的数据。

从上面的代码知道最重要的的是parseParameters()函数，它是来处理parameters的。

下面来看看：

protected void parseParameters()

{

if(parsed)

{

return;///如果处理过了，就不要处理了

}

ParameterMap results = parameters;/构造parameters对象的本地引用

if(results == null)

{

results = new ParameterMap();//如果没有实例

}

results.setLocked(false);

String encoding = getCharacterEncoding();//得到httpServeltRequest的编码

if(encoding == null)

{

encoding = "ISO-8859-1";//如果没有指定httpServeltRequest的编码采用"ISO-8859-1"

}

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

RequestUtil.parseParameters(results, queryString, encoding);//处理编码

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

is.read(buf, len, max - len); //从流中读取数据

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

RequestUtil.parseParameters(results, buf, encoding);///处理编码

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

parameters = results;//重置引用

}

下面再来看看RequestUtil.parseParameters(results, buf, encoding);/的处理：

在此就不贴源代码了,

RequestUtil.parseParameters(results, buf, encoding)的处理中对于buf byte数组进行处理，构造key和value,就是参数名字和参数值：

while(ix < data.length)

{

byte c = data[ix++];

switch((char)c)

{

case 38: // '&'

value = new String(data, 0, ox, encoding);

if(key != null)

{

putMapEntry(map, key, value);

key = null;

}

ox = 0;

break;

case 61: // '='

key = new String(data, 0, ox, encoding);

ox = 0;

break;

case 43: // '+'

data[ox++] = 32;

break;

case 37: // '%'

data[ox++] = (byte)((convertHexDigit(data[ix++]) << 4) + convertHexDigit(data[ix++]));

break;

default:

data[ox++] = c;

break;

}

if(key != null)

{

value = new String(data, 0, ox, encoding);

putMapEntry(map, key, value);

}

显然对于参数名字和参数的值都是采用的new String(data, 0, ox, encoding);方法来使用指定的编码方式构造的。

结论：我们不难看出如果没有指定request的编码方式，那么从客户端接受到的参数的名字和参数值都是以iso-8859-1编码的String的。

也就是说我们在jsp的页面中的表单元素中给出的参数值在通过request.getParamter()得到后的String是以iso-8859-1编码的。

而且我们看看tomcat为jsp产生的java文件知道，对于在jsp定义的没有指定编码方式的String的时候，tomcat是使用的iso-8859-1方式的，而不是系统默认的。

比如：

String name=new String(“你好”)；或者String name=”你好”;/都是使用的iso-8859-1的编码方式的。

System.out.println(name);/就会产生乱码的。(因为Console使用的系统的默认编码的，中文系统是gb2321,日文是MS932).

下篇我们介绍httpServletResponse的处理

Tomcat的中文處理（二）：

上篇我们介绍了tomcat是怎么对接收到字符进行编码的，现在我们来看当向客户端写html文档的时候到底发生了什么？

tomcate在向客户端写出数据的時候，使用的是response的输出流來实现的。但是jsp是怎樣使用response的流的呢？

在使用JSP内含對象out輸出的時候，out是一個JspWriter实现类的对象实例，JspWriterImpl(ServletResponse response, int sz, boolean autoFlush)是一个该类的构造函数，其使用到了response，在JspWriterImpl内部还有一个java.io.Writer对象实例的引用，在使用JspWriter(JSP的out对象)写出数据的时候，会调用如下的函数来初始化

protected void initOut() throws IOException

{

if(out == null)

{

out = response.getWriter();/初始化 java.io.Writer對象

}

}来初始化该内部对象的。

然后在jspWriter的各个输出数据的函数的实现中就是調用上面的java.io.Writer對象的方法的。

所以不论是jsp或者是servlet,对客户端写出html的時候，都是通过response.getWriter();来得到的字符流或者由getOutputStream()得到2进制流的。

一個response存在一個字符流，也存在一個2進制流，但是在同一時刻只能打開使用一個流的。至於兩者的關係，我們在後面介紹。Jsp的out對象就是response的字符流的。

同樣的request也存在一個字符流和一個2進制流，但是在同一時刻只能打開使用一個流的。

response的两个流的关系

我们来考察response的实现类的getOutputStream()和getWriter函数的实现：

public ServletOutputStream getOutputStream() throws IOException

{

。。。。。。。。。。。。。。。。。。。。。

stream = createOutputStream();///创建response的2进制的输出流

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

return stream;

}

public PrintWriter getWriter() throws IOException

{

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

ResponseStream newStream = (ResponseStream)createOutputStream();创建2进制流

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

OutputStreamWriter osr = new OutputStreamWriter(newStream, getCharacterEncoding());

writer = new ResponseWriter(osr, newStream);///得到response的字符输出流

。。。。。。。。。。。。。。。。。。。。。。。。。。

}

显然，我们的字符流就是从2进制流转化而来的

还有两个函数要注意：

public String getCharacterEncoding()//response的编码，默认是ISO-8859-1的

{

if(encoding == null)//如果没有指定编码

{

return "ISO-8859-1";

} else

{

return encoding;

}

public void setContentType(String type)；设置response的类型和编码

{

。。。。。。。。。。。。。

encoding = RequestUtil.parseCharacterEncoding(type);得到指定的编码

if(encoding == null)

{

encoding = "ISO-8859-1";//如果沒有指定编码方式

}

} else

if(encoding != null)

{

contentType = type + ";charset=" + encoding;

}

好了，现在我们知道了在写出字符的时候使用的response的字符流(不管是jsp或者servlet),也就是使用的OutputStreamWriter osr = new OutputStreamWriter(newStream, getCharacterEncoding());

注意的是newStream是response的2进制流的实现。

所以我们还得看看OutputStreamWriter的实现：

考察OutputStreamWriter的源代碼，他有一個StreamEncoder 类型的对象，就是依靠他來转换编码的;

StreamEncoder是由sun公司提供的，它有一个

public static StreamEncoder forOutputStreamWriter(OutputStream outputstream, Object obj, String s)來得到StreamEncoder对象实例。

对于jsp,servlet来说在构造他的时候 outputstream参数是response的2进制流，obj是OutputStreamWriter对象，s就是编码方式的名字。其实得到是一個StreamEncoder的子类的对象实例，

return new CharsetSE(outputstream, obj, Charset.forName(s1)); CharsetSE是StreamEncoder的子类。

他有一个如下的函数来实现编码转换的：

void implWrite(char ac[], int i, int j)throws IOException /// ac是要輸出String的char數組

{

CharBuffer charbuffer = CharBuffer.wrap(ac, i, j);

。。。。。。。。。。。。。。。。。。。。。。。

CoderResult coderresult = encoder.encode(charbuffer, bb, false);/bb是ByteBuffer，存放编码后的byte缓冲区

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

writeBytes();///將bb转化到byte数组写入到response的2进制流中

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

}

至此，我们了解了tomcat背后的编码转换过程

bohemia

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录