php爬虫取百度,PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构

百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水。代码如下:

PHP

Copy

661c065fa698c09fed8032b8d7e44553.png

百度直接拦截了,进了跳转页面,我试试加个浏览器头文件,再试试。

修改后的header如下:

PHP

Copy

我测试了下,网站打开了。

11ac7efa59995c29e479d229766976a7.png

我们继续,输入关键词,并搜索,结果发现被安全拦截了,所以我感觉直接用GuzzleHttp搞不动,于是我继续我的神器:jaeger/querylist和jaeger/querylist-puppeteer。

安装步骤:

1.安装依赖

在这之前,要先启用php的proc_open函数,否则无法安装完整

composer install jaeger/querylist

composer install jaeger/querylist-puppeteer

2.安装nodejs

yum install nodejs

3.安装npm

4.安装@nesk/puphpeteer

npm install @nesk/puphpeteer

5.PHP启用proc_open

代码如下:

PHP

Copy

$rt是我的结果集合,打印下,如下

4d2f111c65f338e87dace5c52cd7455c.png

7d6b6442cc6caa337975fd10835771dd.png

原文在我博客:

原文出处:https://www.cnblogs.com/jianqingwang/p/12420675.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值