浏览器是怎么知道该按照哪种方式编码的?
浏览器向服务器请求数据的时候,服务器通过响应头中的content-type
来告诉浏览器,发送的内容的编码格式。比如,我们在html
页面里面加上如下的模拟响应头:<meta http-equiv="Content-Type" content="text/html;charset=gbk" />
。浏览器收到这个响应头之后,就会按照gbk
的方式来打开页面。之后,在这个页面上,浏览器向服务器提交数据的时候,都会按照gbk
来编码。
URL
编码和字符集(
gbk
或者
utf-8
)的关系
Get
请求乱码分析
Get
请求参数是附加在url
后面的,如果有中文的话,会对中文进行urlencode
。如果html
页面本身是gbk
编码,则浏览器进行urlencode
时会采用gbk
的字符集,字符串"
张三"
就会被编码成%D5%C5%C8%FD
。
而tomcat9
中默认的
URIEncoding
为
UTF,
因此
tomcat
对
url
进行
urldecode
(主要是为了取出
get
提交的参数)时,就会解码错误而乱码。以下是
tomcat
官方文档对
URIEncoding
的解释。
This specifies the character encoding used to decode the URI bytes, after %xx decoding the URL. If not specified, UTF-8 will be used unless the
org.apache.catalina.STRICT_SERVLET_COMPLIANCE
system property
is set to
true
in which case ISO-8859-1 will be used.
Get
请求乱码解决
在前端js里面,对需要使用get提交的中文字符串使用encodeURI()进行编码,该函数会一直使用utf-8的字符集进行url编码,不管页面采用的是什么编码,该函数都会使用utf-8字符集进行url编码。