php简单实现采集

任务:获取本页所有商品的图片

第一步,我们需要一个目标页面。

$url = 'https://s.hc360.com/?w=%E6%B0%B4%E6%9D%AF&mc=seller'; 随便找的一个网页。

 

 

第二、取它完整的一个标签框,代表它独立的一个个体。

  1. 发现属于它的个体是 <li> 标签

  2. 此时发现很多不必要的各种标签内容,我们只留下我们需要的内容  --------data-original(图片载体)

  3. (为啥不是src呢。因为它加载方式的原因)

  4. 然后其他都用   .*?  代替了。

$str = "grid-list.*?picmid pRel.*?<img.*?data-original="(.*?)".*?</li>";

第一个class:grid-list 第二个class:picmid pRel ,然后定位到自己想要的 。

上代码

function curl($url){
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_HEADER, 0);// 为 1 时-启用-会将头文件的信息作为数据流输出
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);//https 不验证信息
    curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);//https 不验证信息
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    $data = curl_exec($ch);    //执行curl会话
    curl_close($ch);           //关闭curl会话
    return $data;
}
$url = 'https://s.hc360.com/?w=%E6%B0%B4%E6%9D%AF&mc=seller';
$data = curl($url);
$data = preg_replace("/[\t\n\r]+/","",$data);
$strPreg = '#grid-list.*?picmid pRel.*?<img.*?data-original="(.*?)".*?</li>#';
preg_match_all($strPreg,$data,$arr);
echo '<xmp>';
print_r($arr);

然后就是取出的数据

 

结束!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值