PHP querylist 页面采集、爬虫获取页面内容（获取数据为对象没有html标签）

最新推荐文章于 2024-04-30 13:26:55 发布

fuchto

最新推荐文章于 2024-04-30 13:26:55 发布

阅读量871

点赞数

文章标签： php 爬虫 python

本文链接：https://blog.csdn.net/fuchto/article/details/120039010

版权

第一步安装php querylist 采集框架 composer 安装

composer require jaeger/querylist

安装成功后

// 引入命名空间

use QL\QueryList;

// 实例化 对象
      $ql = new QueryList();

正常情况下如果要获取指定的内容

反键a标签选择copy 选择copy selector 即可复制到当前class 对应位置

      $html =  $ql->get($url)->find("#main > div > ul > li:nth-child(1) > a");

打印$html 即可获取到html内容

另一种情况这是返回对象内容没有html

选择则需要获取到当前链接的 html内容通过正则匹配获取到对应html数据

$html = $ql->get($url)->getHtml();

示例

    function cms_get_article($url = ''){
      $ql = new QueryList();
      $url = "xxxx";
//      获取页面html内容
      $html =  $ql->get($url)->getHtml();
//      获取截取内容
      preg_match_all("/<div class=\"entry-content\">.*?<\/div>/ism",$html,$content);
//      去除不需要的内容
      $text_content = preg_replace("/<div class=\"c-article-header\">(.*?)<\/div>/ism",'',$content[0][0]);
//      获取字符串长度
      $lenght = strlen("<aside class=\"c-article-more\">");
//       获取当前支付所在位置
      $count=strpos($text_content,"<aside class=\"c-article-more\">");
//  去除不需要的内容
      $str = substr_replace($text_content,"",$count,$lenght);
      echo $str;

    }

fuchto

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
PHP querylist 页面采集、爬虫获取页面内容（获取数据为对象没有html标签）

第一步安装php querylist 采集框架 composer 安装composer require jaeger/querylist安装成功后// 引入命名空间use QL\QueryList;// 实例化对象 $ql = new QueryList();正常情况下如果要获取指定的内容反键a标签选择copy 选择copy selector 即可复制到当前class 对应位置 $html = $ql->get($url)...
复制链接

扫一扫