用PHP编写一个简单的爬虫代码
<?php
function crawlWebsite($url) {
// 创建一个cURL资源
$curl = curl_init();
// 设置URL和相应的选项
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
// 执行cURL请求并获取返回的内容
$html = curl_exec($curl);
// 关闭cURL资源
curl_close($curl);
return $html;
}
// 指定要爬取的网站URL
$targetUrl = "http://example.com";
// 爬取网页内容
$html = crawlWebsite($targetUrl);
// 处理爬取到的网页内容
echo $html;
?>
上面的代码通过使用PHP的cURL库,创建了一个爬虫函数crawlWebsite()
。该函数接收一个URL作为参数,并返回该URL对应的网页内容。
在爬取过程中,我们通过设置一些cURL选项,如CURLOPT_RETURNTRANSFER
用于将结果以字符串形式返回,CURLOPT_FOLLOWLOCATION
用于跟随重定向链接。然后,利用curl_exec()
执行cURL请求并获取返回的内容。
最后,我们可以对爬取到的网页内容进行处理,这里只是简单的将其输出。你可以根据实际需求对爬取到的内容进行解析、保存等操作。