PHP 爬顶点小说代码简单版未优化

最新推荐文章于 2021-03-12 10:41:20 发布

dnfdsaa

最新推荐文章于 2021-03-12 10:41:20 发布

阅读量415

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28979487/article/details/80082068

版权

function zhangjie($url){
   $content = file_get_contents($url);
       $doc=new DomDocument();
       $doc->loadHTML($content);
       $lpath=new DOMXpath($doc);
       $list = $lpath->query("//tr/td[contains(@class,'L')]/a");
       foreach ($list as $node) {
           $result[] = $node->attributes->getNamedItem('href')->nodeValue;
       }
       return $result;
}

   for($i=1;$i<1146;$i++)
   {
       $url='http://www.23us.so/top/lastupdate_'.$i.'.html';

       $content = file_get_contents($url);
       $doc=new DomDocument();
       $doc->loadHTML($content);
       $xpath=new DOMXpath($doc);
       $list = $xpath->query("//tr/td[contains(@class,'L')][1]/a");
       foreach ($list as $node) {
           echo $node->attributes->getNamedItem('href')->nodeValue.'<br>';

           $result[] = $node->attributes->getNamedItem('href')->nodeValue;
       }
          //$i= $xpath->evaluate("string(//strong)");

   }

   $result = array_unique($result);
   for($i=0;$i<$result;$i++)
   {
       $doc=new DomDocument();
       $doc->loadHTML($content);
       $xpath=new DOMXpath($doc);
       $data[$i]['title']= $xpath->evaluate("string(//h1)");
       $data[$i]['type'] = $xpath->evaluate("string(//tr[1]//td[1]/a)");
       $data[$i]['author'] = $xpath->evaluate("string(//tr[1]//td[2])");

       $data[$i]['length'] = $xpath->evaluate("string(//tr[2]//td[2])");
       $data[$i]['updatedate'] = $xpath->evaluate("string(//tr[2]//td[3])");
       $data[$i]['click'] = $xpath->evaluate("string(//tr[3]//td[1])");
       $data[$i]['new'] = $xpath->evaluate("string(//a[contains(@class,'read')]/@href)");
       $data[$i]['image'] = $xpath->evaluate("string(//div[contains(@class,'fl')][1]/a/img/@src)");
       //进行数组操作存下数据再返回id
       //$id
       list($insert_id, $total_rows) = DB::insert('xiao', array('title','type','author','length','updatedate','click','new','image'))->values($data[$i])->execute();
       $nr = zhangjie($data[$i]['new']);//内容页返回内容页数组
       foreach($nr as $k=>$v)
       {
           $doc=new DomDocument();
           $doc->loadHTML($v);
           $lpath=new DOMXpath($doc);
           $arr[$k]['chapter'] = $lpath->evaluate("string(//title)");
           $arr[$k]['content'] = $lpath->evaluate("string(//dd[contains(@id,'contents')])");
           $arr[$k]['wid'] = $insert_id;
           DB::insert('content', array('chapter','content','wid'))->values($arr[$k])->execute();
           echo $data[$i]['title']."已爬去成功>";

       }

   }

测试效率很低需进行优化

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

dnfdsaa 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。