原理很简单,一看即懂。操作粗暴简单,哈哈。
href.php
<?php
header("Content-type: text/html; charset=utf-8");
$num = 0;
for ($page=1; $page <99 ; $page++) {
$html = file_get_contents('https://blog.csdn.net/Cai181191/article/list/'.$page.'?');
$dom = new DOMDocument();
@$dom->loadhtml($html);
$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate('/html/body//main/div/div/h4/a');
if ($hrefs->length==0) {
print_r('<br/>'.'====================已经抓取到尾页了===================='.'<br/>');
break;
}
else{
for ($i = 0; $i < $hrefs->length; $i++) {
$href = $hrefs->item($i);// 获取a标签元素
$url = $href->getAttribute('href');// 获取a标签元素href属性的值
print_r($url.'<br/>');
$num++;
}
}
}
print_r('一共有'.$num.'篇文章');
?>
效果: