php 采集程序,php采集程序代码(入门)

完整代码如下。

/**

* php采集程序

* by http://www.jbxue.com

*/

function fetch_urlpage_contents($url){

$c=file_get_contents($url);

return $c;

}

//获取匹配内容

function fetch_match_contents($begin,$end,$c)

{

$begin=change_match_string($begin);

$end=change_match_string($end);

$p = "{$begin}(.*){$end}";

if(eregi($p,$c,$rs))

{

return $rs[1];}

else { return "";}

}//转义正则表达式字符串

function change_match_string($str){

//注意,以下只是简单转义

//$old=array("/","$");

//$new=array("\/","\$");

$str=str_replace($old,$new,$str);

return $str;

}

//采集网页

function pick($url,$ft,$th)

{

$c=fetch_urlpage_contents($url);

foreach($ft as $key => $value)

{

$rs[$key]=fetch_match_contents($value["begin"],$value["end"],$c);

if(is_array($th[$key]))

{ foreach($th[$key] as $old => $new)

{

$rs[$key]=str_replace($old,$new,$rs[$key]);

}

}

}

return $rs;

}

$url="http://www.yourdomain.com"; //要采集的地址

$ft["title"]["begin"]="

"; //截取的开始点

$ft["title"]["end"]="

"; //截取的结束点

$th["title"]["站点"]="脚本学堂"; //截取部分的替换

$ft["body"]["begin"]="

"; //截取的开始点

$ft["body"]["end"]=""; //截取的结束点

$th["body"]["网站"]="www.jbxue.com"; //截取部分的替换

$rs=pick($url,$ft,$th); //开始采集

echo $rs["title"];

echo $rs["body"]; //输出

?>

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值