假设有一个网址是www.jiashe.com?type=c++
如果想要获取type的值,我们知道:
var_dump($_GET['type']);
然而,结果却是:
可以看出来,应该输出c++的,却输出了c空格空格。
下面分析一下这个过程:
当我们在浏览器中输入www.jiashe.com?type=c++这个URL之后,浏览器首先需要对这个URL进行编码。编码的规则是对非ASCII码以%加2个十六进制数。比如:
www.jiashe.com?type=c ++(c后有一个空格)
浏览器会将其编码成:
www.jiashe.com?type=c%20++(空格用%20代替)
中文也都有相应的编码。
$_GET['type']获取的是什么?它获取的不是编码之前的type的值,而是编码后type的值,获取到值后再进行反编码。
未编码之前type的值是c++,编码之后type的值还是c++。
这里说一下,c和+都是ASCII码,所以没有进行编码。但实际上,每一个ASCII都有对应的十六进制表示的。在PHP中,进行URL编码的函数是:
echo urlencode('c++');
结果是:c%2B%2B
在JS中,进行URL编码的函数是:
console.log(encodeURI('c++'));
结果是:c++
可见,不同语言编码后效果是不一样的。PHP将+进行了编码,而JS中没有对+进行编码。
而刚才输入网址,浏览器也是没有对+进行编码。然后$_GET['type']对c++进行解码。浏览器又把++反编码成空格了。
这里会很奇怪:+的编码是%2B,为什么会解析成空格呢?空格的编码是%20,但是URL编码通常用+代替空格(参考:http://www.runoob.com/tags/html-urlencode.html,里面的原话)。也就是说,如果我们在浏览器中输入:www.baidu.com?type=c vb既可以编译成
www.baidu.com?type=c%2Bvb(将空格编码成%2B),也可以
www.baidu.com?type=c%+vb(将空格编码成+)
所以,我们对c++进行反编译的时候,浏览器又认为这个+是由空格编码过来的,所以又反编译成了空格,这就导致了一开始出现的问题。
其实,问题的根源就在于编码不是一对一。+和%2B是一对,+又和空格是一对,导致错误。
而-就不会出现这种问题。那该怎么办呢?
只要我们传的时候已经对+进行编码即可。
我们先对c++进行编码变成c%2B%2B,这样,解析的时候就会还原成+。
但是怎么对c++编码呢?刚才说了,有的语言(JS)不对++进行编码,而有的(PHP)又对++进行编码。这里其实可以简单地用字符串替换,将+换成%2B:
<?php
str_replace('+','%2B','c++');
?>
这样,我们输入的网址就是www.jiashe.com?type=c%2B%2B,浏览器对其编码还是不变,最后反解码时%2B就变成了+。
注意,php的这个函数很厉害,它能将所有的+都替换成%2B。而JS中字符串的替换函数replace只能替换第一个+号,后面的+号就不能替换了,所有JS中的replace的第一个参数通常需要用正则匹配。
Header方法也是一样,用Header进行页面跳转时,其URL需要被编码,如果URL中含有+符号,一定记着先把+换成%2B,否则可能出现错误。