php正则抓取网页指定内容,php正则匹配获取指定url网页页面超级链接地址与抓取指定页面内容方法...

在数据采集与页面分析中,常需要抓取给定url页面的内容,或者第二、第三层次深度页面内容。

这里是一个测试例子的实现,仅供参考。

/*

匹配给定页面链接

return:array match[link,content,all]

*/

function match_links($host, $document) {

$pattern = '/(.*?)/i';

preg_match_all($pattern, $document, $m);

return $m;

preg_match_all("']+))[^>]*>?(.*?)'isx",$document,$links);

while(list($key,$val) = each($links[2])) {

if(!empty($val))

if(preg_match("/http/",$val)){

$match['link'][] = $val;

}

else {

$match['link'][] = $host . $val;

}

}

while(list($key,$val) = each($links[3])) {

if(!empty($val))

if(preg_match("/http/",$val)){

$match['link'][] = $val;

}

else {

$match['link'][] = $host . $val;

}

}

while(list($key,$val) = each($links[4])) {

if(!empty($val))

$match['content'][] = $val;

}

while(list($key,$val) = each($links[0])) {

if(!empty($val))

$match['all'][] = $val;

}

return $match['link'];

}

/*

从给定url中获取页面文本内容

*/

function get_content_from_url($url) {

$str = @file_get_contents($url);

if(mb_check_encoding($str, "GBK"))

$str = iconv("GBK","UTF-8", $str);

$str = strip_tags($str); // 过滤html标签

/*

$str = preg_replace( "@

$str = preg_replace( "@@is", "", $str );

$str = preg_replace( "@

$str = preg_replace( "@<(.*?)>@is", "", $str );

*/

//过滤非汉字字符

preg_match_all('/[x{4e00}-x{9fff}]+/u', $str, $matches);

$str = join(',', $matches[0]);

if(!$str)

return NULL;

return $str;

}

function get_content($url,$depth) {

if(!$url || $depth < 1)

return false;

while($depth > 1){

$str = @file_get_contents($url);

if(!$str)

return false;

$parseurl = parse_url($url);

if($parseurl['host'])

$host = $parseurl[scheme] . "://" . $parseurl['host'];

$arrlink = match_links($host,$str);

$arr_url = array_unique($arrlink);

$depth--;

foreach($arr_url as $url){

$content .= get_content($url, $depth); //递归调用

}

}

$content .= get_content_from_url($url);

return $content;

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值