php curl get 模拟浏览器,php - php curl:我怎样才能像Web浏览器一样模拟get请求? - SO中文参考 - www.soinside.com...

本文详细介绍了如何使用PHP的curl库模拟Firefox浏览器的GET请求,包括设置正确的请求头如User-Agent、Accept等,以及处理Accept-Encoding以确保与真实浏览器行为一致。通过对比netcat服务器接收到的请求,验证了模拟请求的准确性。
摘要由CSDN通过智能技术生成

我将举一个例子,首先确定你要模拟的浏览器,在这种情况下我选择Firefox 60.6.1esr (64-bit),并检查它发出的GET请求,这可以通过一个简单的netcat服务器获得(MacOS捆绑netcat,大多数Linux发行版bunles netcat ,Windows用户可以从.. Cygwin.org,以及其他地方获得netcat),

设置netcat服务器以侦听端口9999:nc -l 9999

$ nc -l 9999

GET / HTTP/1.1

Host: 127.0.0.1:9999

User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8

Accept-Language: en-US,en;q=0.5

Accept-Encoding: gzip, deflate

Connection: keep-alive

Upgrade-Insecure-Requests: 1

现在让我们将它与这个简单的脚本进行比较:

$ch=curl_init("http://127.0.0.1:9999");

curl_exec($ch);

我得到:

$ nc -l 9999

GET / HTTP/1.1

Host: 127.0.0.1:9999

Accept: */*

这里有几个缺少的标题,它们都可以使用curl_setopt的CURLOPT_HTTPHEADER选项添加,但User-Agent应该使用CURLOPT_USERAGENT来设置(它将在多次调用curl_exec()时保持不变,如果使用CURLOPT_FOLLOWLOCATION则它将保持不变也可以使用CURLOPT_ENCODING设置Accept-Encoding标头(如果它们设置为CURLOPT_ENCODING,那么如果服务器选择压缩它,curl会自动解压缩响应,但是如果你通过CURLOPT_HTTPHEADER设置它,那么你必须自己手动检测和解压缩内容,这是一个痛苦的屁股,完全没必要,一般来说)所以添加我们得到的:

$ch=curl_init("http://127.0.0.1:9999");

curl_setopt_array($ch,array(

CURLOPT_USERAGENT=>'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0',

CURLOPT_ENCODING=>'gzip, deflate',

CURLOPT_HTTPHEADER=>array(

'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language: en-US,en;q=0.5',

'Connection: keep-alive',

'Upgrade-Insecure-Requests: 1',

),

));

curl_exec($ch);

现在运行该代码,我们的netcat服务器得到:

$ nc -l 9999

GET / HTTP/1.1

Host: 127.0.0.1:9999

User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0

Accept-Encoding: gzip, deflate

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8

Accept-Language: en-US,en;q=0.5

Connection: keep-alive

Upgrade-Insecure-Requests: 1

瞧!我们的php模拟的browser GET请求现在应该与真正的firefox GET请求无法区分:)

下一部分只是挑剔,但如果你仔细观察,你会看到标题堆叠的顺序错误,firefox将Accept-Encoding标题放在第6行,我们的模拟GET请求将它放在第3行..解决这个问题,我们可以手动将Accept-Encoding标头放在右侧,

$ch=curl_init("http://127.0.0.1:9999");

curl_setopt_array($ch,array(

CURLOPT_USERAGENT=>'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0',

CURLOPT_ENCODING=>'gzip, deflate',

CURLOPT_HTTPHEADER=>array(

'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language: en-US,en;q=0.5',

'Accept-Encoding: gzip, deflate',

'Connection: keep-alive',

'Upgrade-Insecure-Requests: 1',

),

));

curl_exec($ch);

运行它,我们的netcat服务器得到:

$ nc -l 9999

GET / HTTP/1.1

Host: 127.0.0.1:9999

User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8

Accept-Language: en-US,en;q=0.5

Accept-Encoding: gzip, deflate

Connection: keep-alive

Upgrade-Insecure-Requests: 1

问题解决了,现在标题甚至是正确的顺序,并且请求似乎完全可以从真正的firefox请求中显示出来:)(我实际上并不推荐这最后一步,这是一个维护负担,使CURLOPT_ENCODING与自定义Accept-Encoding标头,我从来没有经历过标题顺序重要的情况)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值