一、描述
URL路径包含中文和表单get方式请求包含中文是不一样的,前者是请求路径中包含了中文,而后者是URL中的查询字符串包含了中文。形如http://xx/oo/你好/index.jsp?kw=张三,其中url路径包含中文是指“http://xx/oo/你好/index.jsp”,而get方式请求包含种无奈则是指“kw=张三”。
二、url路径包含中文
当url路径包含中文的时候,浏览器会自动采用UTF-8对路径进行编码,而服务器(本例中是tomcat,不同服务器的实际可能有差异,但原理差不都)默认是采用ISO-8859-1来对url路径进行解码,此时往往会出现404,如以下例子所述。
请求页面代码:
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>main</title>
</head>
<body>
上传成功
<img alt="xx" src="/fileUpload00/files/TCP三次握手.gif">
</body>
</html>
响应页面代码以及HTTP信息:
如截图所示,当浏览器通过url=http://localhost:8080/fileUpload00/fileup请求到一个jsp页面(上面附有代码,该页面包含一个img标签,标签的src属性会再次向服务器发起请求)并进行加载解析,当解析到<imgalt="xx"src="/fileUpload00/files/TCP三次握手.gif">的时候,会再次向服务器发起一个get请求,这个get请求正是本例中讨论的问题:url路径中包含中文。
浏览器默认会将URL进行UTF-8进行编码:从服务器端的404报错以及URLEncoder.encode("三次握手", "UTF-8"),如下图所示。
问题总结:(测试环境:chrome浏览器,tomcat7,JDK8)
当url路径包含中文的时候,浏览器默认会对其进行UTF-8的编码,此时发送到服务器端的路径会被以ISO-8859-1进行解码,因此服务器会找不到对应中文的路径资源。
解决方法:
修改tomcat配置文件server.conf,将其默认的ISO-8859-1编解码修改成UTF-8,<Connector connectionTimeout="20000" port="8080" protocol="HTTP/1.1" redirectPort="8443" URIEncoding="UTF-8"/>。
三、get请求包含中文
get请求方式包含中文,意味着查询串包含中文,形如http://xx/oo/你好/index.jsp?kw=张三,其中url路径包含中文是指“http://xx/oo/你好/index.jsp”,而get方式请求包含种无奈则是指“kw=张三”,浏览器对其默认也进行UTF-8编码。但是当编码的数据到达服务器端的时候,服务器端通过request.getParameter(keyWord)方式获取对应的中文value,但是getParameter方法默认会通过getCharacterEncoding()获得编解码,如果返回位null则默认用ISO-8859-1。
问题总结:
因此当采用get方式请求的时候,浏览器对原始数据进行UTF-8编码,tomcat容器通过getParameter方法获得value的时候,又通过ISO-8859-1对数据进行了一次编码。
解决方法:
request.getParameter获得get方式提交的值,先byte[] b = getBytes("ISO-8858-1")解码一次,在new String(b, "UTF-8")解码一次获取最终数据。
附注:
本文如有错漏,烦请不吝指正,谢谢!