本文为原创作品,引用请注明出处,欢迎转载。
最近在学PHP后台,想要在网络上爬取一些健康资讯,尽管知道PHP爬取数据的能力不如Python,但还是想试试用PHP爬取网页。
这里首先介绍PHP的一个库:curl,接下来我们将主要用到这个库来爬取网页数据。
还会用到的是正则表达式,不清楚的同学可以自行上网学习相关知识。
1. 首先要初始化curl,并对其做一些基本的设置,这里将其封装成一个get()函数。
public function get($url)
{
//初使化curl
$ch = curl_init();
//请求的url,由形参传入
curl_setopt($ch, CURLOPT_URL, $url);
//将得到的数据返回
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
//不处理头信息
curl_setopt($ch, CURLOPT_HEADER, 0);
//连接超过10秒超时
curl_setopt($ch, CURLOPT_TIMEOUT, 10);
//执行curl
$output = curl_exec($ch);
//关闭资源
curl_close($ch);
//返回内容
return $output;
}
curl的步骤分为以上7步:
1.初使化curl资源
2.参数设置请求的协议地址
3.参数设置是否返回请求结果