[php]
function curl_get_contents($url)
{
$curl = curl_init();
// 设置你需要抓取的URL
curl_setopt($curl, CURLOPT_URL,$url);
// 设置header
curl_setopt($curl, CURLOPT_HEADER, 0);
// 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($curl, CURLOPT_CONNECTTIMEOUT,10);
// 运行cURL,请求网页
$data = curl_exec($curl);
if($data === false){
echo curl_error($curl);
exit;
}
$info = curl_getinfo($curl);
//print_r($info);
// 关闭URL请求
curl_close($curl);
// 显示获得的数据
//print_r($data);
return $data;
}
/*获取页面的URL地址*/
function geturl($url)
{
$http=substr($url,0,12);
// $strSource = file_get_contents($url);
$strSource = curl_get_contents($url);
preg_match_all(‘/(.+?)/sim’, $strSource, $strResult, PREG_PATTERN_ORDER);
$urllist = array();
for($i = 0; $i < count($strResult[1]); $i++)
{
// printf("%d href=(%s) title=(%s) \n", $i, $strResult[1][$i], $strResult[2][$i]);
//printf(" %s ", $strResult[1][$i], $strResult[2][$i]);
$url=$strResult[1][$i];
if(substr($url,0,12)==$http)
{
//判断是否重复
if(!in_array($strResult[1][$i], $urllist))
{
$urllist[]=$strResult[1][$i];
}
}
}
return $urllist;
}
[/php]