最近在学着做数据爬虫,经常遇到的一个问题是,经常要根据某个标签的属性值来获取该表下面的内容,
后来找到了一个封装的方法,挺好用的,下面看代码:
/**
* $html-需要爬取的页面内容
* $tag-要查找的标签
* $attr-要查找的属性名
* $value-属性名对应的值
*/
public function get_tag_data($html,$tag,$attr,$value){
$regex = "/<$tag.*?$attr=\".*?$value.*?\".*?>(.*?)<\/$tag>/is";
preg_match_all($regex,$html,$matches,PREG_PATTERN_ORDER);
return $matches[1];
}
DONE!!!!!