[PHP]用php的curl_post写一个爬取百度搜索结果的api

最新推荐文章于 2023-06-19 14:08:53 发布

置顶

shadow wolf

最新推荐文章于 2023-06-19 14:08:53 发布

阅读量1.7k

点赞数 2

分类专栏： api curl 算法文章标签：百度 php curl http

本文链接：https://blog.csdn.net/qq_25017571/article/details/106158638

版权

0x01 起因

因为手速慢，漏洞刷不过别人，一个个手补确实慢，所以想自己写一个api，一键抓取百度搜索结果，然后就可以打批量了 ovo（真是太妙了！）

0x02 动工

1.抓包做准备

要做一个抓取的，当然是先抓包啦~

拿出我的bp，和zoomeye篇一样先输入一个关键字，方便在bp里面找我输入的关键字

然后回车~

发现我输入的关键字在这个GET的请求包里面

用repeat模块后:

发现返回了我要的搜索结果

timg (1).jpg

2.使用php的curl来模拟访问

PHP支持的由Daniel Stenberg创建的libcurl库允许你与各种的服务器使用各种类型的协议进行连接和通讯。

libcurl目前支持http、https、ftp、gopher、telnet、dict、file和ldap协议。libcurl同时也支持HTTPS认证、HTTP POST、HTTP PUT、 FTP 上传(这个也能通过PHP的FTP扩展完成)、HTTP 基于表单的上传、代理、cookies和用户名+密码的认证。

PHP中使用cURL实现Get和Post请求的方法

这些函数在PHP 4.0.2中被引入。

就是说，在php4.0.2中就已经引入了curl，而且还可以做post和get，真是太有用了有木有

拿出我刚刚记录好的请求包~

Connection: close

Upgrade-Insecure-Requests: 1

User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36

Sec-Fetch-Dest: document

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9

Sec-Fetch-Site: none

Sec-Fetch-Mode: navigate

Sec-Fetch-User: ?1

Accept-Language: zh-CN,zh;q=0.9

Cookie: PSTM=1588249253; BAIDUID=C34E0834A4B2DA6CBA0B25FA3A67FC8D:FG=1; BIDUPSID=735A45B6473102ED12E4236A4401AE21; BD_UPN=12314353; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BDUSS=2FaaXBqcDhaY0p-U1JvMXJ3dnVVdnJlSklhelZkSEQ1aGF1a1lWYjh3WnNVOUplSVFBQUFBJCQAAAAAAAAAAAEAAADfyRotztLX3MrHzvvO-7n-uf4AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGzGql5sxqpeZ; H_PS_PSSID=1461_31325_21098_31254_31342_31271_31464_30824_31164_22158; delPer=0; BD_CK_SAM=1; PSINO=5; sug=3; sugstore=0; ORIGIN=2; bdime=0; H_PS_645EC=fe7bDpIqw0Ye%2FC9V9rTqXv5ARp5x3G1lJcPTrEHREGKf1YbuRCoB6oR0frw

然后用php语言来描述他:

<?php
function curl_post($url){
	//$url='https://www.baidu.com/s?wd=%22Office%20Anywhere%22&tn=93348797_hao_pg&ie=utf-8&ch=1&pn='.$pn;
     $ch = curl_init();
	 curl_setopt($ch, CURLOPT_URL, $url);
	 curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
	 curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
	 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
	 curl_setopt($ch, CURLOPT_HEADER, TRUE);
	$headers = array();
    $headers[] = 'Connection: close';
	$headers[] = 'Upgrade-Insecure-Requests: 1';
	$headers[] = 'User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36';
	$headers[] = 'Sec-Fetch-Dest: document';
	$headers[] = 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9';
	$headers[] = 'Sec-Fetch-Site: none';
	$headers[] = 'Sec-Fetch-Mode: navigate';
	$headers[] = 'Sec-Fetch-User: ?1';
	$headers[] = 'Accept-Language: zh-CN,zh;q=0.9';
    $headers[] = 'Cookie: PSTM=1588249253; BAIDUID=C34E0834A4B2DA6CBA0B25FA3A67FC8D:FG=1; BIDUPSID=735A45B6473102ED12E4236A4401AE21; BD_UPN=12314353; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BDUSS=2FaaXBqcDhaY0p-U1JvMXJ3dnVVdnJlSklhelZkSEQ1aGF1a1lWYjh3WnNVOUplSVFBQUFBJCQAAAAAAAAAAAEAAADfyRotztLX3MrHzvvO-7n-uf4AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGzGql5sxqpeZ; H_PS_PSSID=1461_31325_21098_31254_31342_31271_31464_30824_31164_22158; delPer=0; BD_CK_SAM=1; PSINO=5; sug=3; sugstore=0; ORIGIN=2; bdime=0; H_PS_645EC=fe7bDpIqw0Ye%2FC9V9rTqXv5ARp5x3G1lJcPTrEHREGKf1YbuRCoB6oR0frw';
     curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
     $output= curl_exec($ch);
     curl_close($ch);
     return $output;
}
?>

这样子就可以完成一次php中curl对baidu的请求了

然后用正则的方法取出其中的链接(http://www.baidu.com/link?url=xxxxx)

$a=curl_post($url);
$pattern = '/<a target="_blank" href="(.*?)"(.*?)" class="(.*?)/i';
preg_match_all($pattern, $a, $match);

如果有不会的可以看我的第一篇(zoomeye篇)

)

保留head

最后就会把返回值$a打印在屏幕上了

但是百度的返回值是www.baidu.com/link?url=xxxxxxxx

所以要获取真实链接：

function get_real($url){
$info = parse_url($url);
$fp = fsockopen($info['host'], 80,$errno, $errstr, 30);
fputs($fp,"GET {$info['path']}?{$info['query']} HTTP/1.1\r\n");
fputs($fp, "Host: {$info['host']}\r\n");
fputs($fp, "Connection: close\r\n\r\n");
$rewrite = '';
while(!feof($fp)) {
    $line = fgets($fp);
    if($line != "\r\n" ) {
        if(strpos($line,'Location:') !== false) {
            $rewrite = str_replace(array("\r","\n","Location: "),'',$line);
        }
    }else {
        break;
    }
}
return $rewrite; 
}

最后输出即可

0x03所以完整代码如下:

<?php
function get_real($url){
   
$info = parse_url($url);
$fp = fsockopen($info['host'</

最低0.47元/天解锁文章

shadow wolf

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[PHP]用php的curl_post写一个爬取百度搜索结果的api

0x01 起因因为手速慢，漏洞刷不过别人，一个个手补确实慢，所以想自己写一个api，一键抓取zoomeye的20页，然后就可以打批量了 ovo（真是太妙了！）0x01 动工      1.抓包做准备要做一个抓取的，当然是先抓包啦~拿出我的bp，和zoomeye篇一样先输入一个关键字，方便在bp里面找我输入的关键字然后回车~发现我输入的关键字在这个GET的请求包里面用repeat模块后:发现返回了我要的搜索结果 &nbs
复制链接

扫一扫

专栏目录