h5页面保存img_PHP实现远程抓取网站图片并保存在文件中

该博客介绍了一个PHP功能类,用于递归抓取H5页面及子页面中的所有图片,并将其保存到本地文件系统。通过学习此方法,读者可以了解如何在PHP中实现远程图片的下载和保存。
摘要由CSDN通过智能技术生成

这个功能类虽然是PHP原生的,但是也值得你去学习一下的。

递归抓取首页与子页面

/**
   * 递归下载抓取首页及其子页面图片的方法 ( recursive 递归)
   *
   * @param  String $capture_url 用于抓取图片的网址
   *
   */
  public function recursive_download_images($capture_url)
  {
    
    if (!in_array($capture_url,self::$a_url_arr))  //没抓取过
    {
    
      self::$a_url_arr[]=$capture_url;  //计入静态数组
    } else  //抓取过,直接退出函数
    {
    
      return;
    }
    $this->download_current_page_images($capture_url); //下载当前页面的所有图片
    //用@屏蔽掉因为抓取地址无法读取导致的warning错误
    $content=@file_get_contents($capture_url);
    //匹配a标签href属性中?之前部分的正则
    $a_pattern = "|<a[^>]+href=['" ]?([^ '"?]+)['" >]|U";
    preg_match_all($a_pattern, $content, $a_out, PREG_SET_ORDER);
    $tmp_arr=array(); //定义一个数组,用于存放当前循环下抓取图片的超链接地址
    foreach ($a_out as $k => $v)
    {
    
      /**
       * 去除超链接中的 空'','#','/'和重复值
       * 1: 超链接地址的值 不能等于当前抓取页面的url, 否则会陷入死循环
       * 2: 超链接为''或'#','/'也是本页面,这样也会陷入死循环,
       * 3: 有时一个超连接地址在一个网页中会重复出现多次,如果不去除,会对一个子页面进行重复下载)
       */
      if ( $v[1] && !in_array($v[1],self::$a_url_arr) &&!in_array($v[1],array('#','/',$capture_url) ) )
      {
    
        $tmp_arr[]=$v[1];
      }
    }
    foreach ($tmp_arr as $k => $v)
    {
    
      //超链接路径地址
      if ( strpos($v, 'http://')!==false ) //如果url包含http://,可以直接访问
      {
    
        $a_url = $v;
      }else  //否则证明是相对地址, 需要重新拼凑超链接的访问地址
      {
    
        $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);
        $a_url=$domain_url.$v;
      }
      $this->recursive_download_images($a_url);
    }
  }

下载当前的所有页面

/**
   * 下载当前网页下的所有图片
   *
   * @param  String $capture_url 用
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值