我会举一个例子首先确定要模拟的浏览器,在这种情况下,我选择了Accept-Encoding,并检查发出了什么GET请求,这可以通过一个简单的netcat服务器获得(MacOS捆绑了netcat,大多数linux发行版捆绑了netcat,Windows用户可以获取netcat 来自.. Cygwin.org等),
设置netcat服务器以侦听端口9999:Accept-Encoding
现在在Firefox中点击[http://127.0.0.1:9999],我得到:
$ nc -l 9999
GET / HTTP/1.1
Host: 127.0.0.1:9999
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate
Connection: keep-alive
Upgrade-Insecure-Requests: 1
现在让我们将其与以下简单脚本进行比较:
$ch=curl_init("http://127.0.0.1:9999");
curl_exec($ch);
我得到:
$ nc -l 9999
GET / HTTP/1.1
Host: 127.0.0.1:9999
Accept: */*
这里缺少一些标头,可以使用curl_setopt的CURLOPT_HTTPHEADER选项将其全部添加,但是应该特别将Accept-Encoding设置为CURLOPT_USERAGENT(它将在对curl_exec()的多次调用中保持不变,如果使用CURLOPT_FOLLOWLOCATION,则它将保持不变 以及跨HTTP重定向),而应该使用CURLOPT_ENCODING设置Accept-Encoding标头(如果使用CURLOPT_ENCODING设置,则curl将在服务器选择压缩响应时自动解压缩响应,但是如果您通过CURLOPT_HTTPHEADER进行设置,则必须 自己手动检测并解压缩内容,这是一个痛苦的过程,通常来说是完全不必要的),因此添加以下内容:
$ch=curl_init("http://127.0.0.1:9999");
curl_setopt_array($ch,array(
CURLOPT_USERAGENT=>'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0',
CURLOPT_ENCODING=>'gzip, deflate',
CURLOPT_HTTPHEADER=>array(
'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language: en-US,en;q=0.5',
'Connection: keep-alive',
'Upgrade-Insecure-Requests: 1',
),
));
curl_exec($ch);
现在运行该代码,我们的netcat服务器将获得:
$ nc -l 9999
GET / HTTP/1.1
Host: 127.0.0.1:9999
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0
Accept-Encoding: gzip, deflate
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Connection: keep-alive
Upgrade-Insecure-Requests: 1
和瞧! 我们的php模拟Accept-Encoding GET请求现在应该与真正的Firefox GET请求没有区别了:)
接下来的部分只是挑剔,但如果您仔细观察,您会发现标头以错误的顺序堆叠,firefox将Accept-Encoding标头放在第6行,我们的模拟GET请求将其放在第3行。 要解决此问题,我们可以手动将Accept-Encoding标头放在右行,
$ch=curl_init("http://127.0.0.1:9999");
curl_setopt_array($ch,array(
CURLOPT_USERAGENT=>'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0',
CURLOPT_ENCODING=>'gzip, deflate',
CURLOPT_HTTPHEADER=>array(
'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language: en-US,en;q=0.5',
'Accept-Encoding: gzip, deflate',
'Connection: keep-alive',
'Upgrade-Insecure-Requests: 1',
),
));
curl_exec($ch);
运行它,我们的netcat服务器将获得:
$ nc -l 9999
GET / HTTP/1.1
Host: 127.0.0.1:9999
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate
Connection: keep-alive
Upgrade-Insecure-Requests: 1
问题解决了,现在标题甚至都以正确的顺序排列了,并且请求似乎与真正的firefox请求是完全不可区分的:)(我实际上不建议这样做,这是保持CURLOPT_ENCODING与 自定义的Accept-Encoding标头,而且我从未遇到标头顺序很重要的情况)