抓取网页工具querylist的使用简介

querylist的使用

首先,querylist是时下php最先进的dom采集包之一,而且是国人写的,中文文档很好,如果想用好,应该直接看一遍官方文档

我这里简单记录下我对querylisty使用的理解。目标是用一篇文章解释如何使用。方便我超过2个月后回忆....

操作流程

主要分为三步

  1. 载入资源
  2. 筛选目标
  3. 读取结果

举例:

<?php
require 'QueryList/vendor/autoload.php';
use QL\QueryList;
$html = <<<STR
<div id="one">
    <div class="two">
        <a href="http://querylist.cc">QueryList官网</a>
        <img src="http://querylist.com/1.jpg" alt="这是图片">
        <img src="http://querylist.com/2.jpg" alt="这是图片2">
    </div>
    <span>其它的<b>一些</b>文本</span>
</div>        
STR;
$rules = array(
    'text' => array('#one','text'),
    'link' => array('.two>a','href'),
    'img' => array('.two>img:eq(1)','src'),
    'other' => array('span','html')
);

$data = QueryList::html($html)  // 1.载入资源
        ->rules($rules)         // 2.筛选目标之输入筛选规则
        ->query()               // 2.筛选目标之执行筛选
        ->getData();            // 3.读取结果
print_r($data->all());          // 3.读取结果之转换格式
复制代码

我们需要了解的就是每一步具体有那些更细的方法?主要第二步筛选,怎么用?

载入资源

$html = file_get_contents('https://querylist.cc/');

方法说明
html()ql = QueryList::html(html);
setHtml($html)作用同上
ql->setHtml(html);
getHtml()获取设置的待采集的html源码
data =ql->getHtml();
get()get插件,用来轻松获取网页。该插件基于GuzzleHttp,请求参数与它一致。

筛选目标

//html源码
$html='';

//采集规则
$rules = [];

//设置规则和执行筛选
$ql = QueryList::html($html)->rules($rules)->query();

//读取结果
$data = $ql->getData();
print_r($data->all());
复制代码
方法说明
rules($arr)设置筛选规则,是一个数组,看下面详细介绍和举例
range()这个是rules的补充,看文档代码就明白了
removeHead()移除页面头部head区域,乱码终极解决方案,采集出现不可解决的乱码问题的时候,可以尝试调用这个方法来解决乱码问题。
query()执行采集规则rules,执行完这个方法后才可以用getData()方法获取到采集数据。

rules单独说明

//采集规则
$rules = array(
   '规则名' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),
   '规则名2' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),
    ..........
);
复制代码
rules字段说明
规则名不要重复 随便写
jQuery选择器jq会不
要采集的属性- text:返回当前选中标签下面的纯文本
- html:返回当前选中标签下面的html片段
- [HTML标签属性]:如src、href、name、data-src等任意HTML标签属性名
标签过滤列表设置此选项可用来过滤不想要的内容,多个值之间用空格隔开,有如下2条规则:
- 当标签名前面添加减号(-)时(此时标签可以为任意的jQuery选择器),表示移除该标签以及标签内容。
- 当标签名前面没有减号(-)时,当 [要采集的属性] 值为text时表示需要保留的HTML标签以及内容,为html时表示要过滤掉的HTML标签但保留内容。
回调函数

举例:

$rules = [
	'link' => ['a','href'],
    'content' => ['.article','html','-.ad1 -.ad2']
];
复制代码

读取结果

方法说明
getData()返回值为Laravel中Collection集合对象,通过它的all()方法可转为数组。

转载于:https://juejin.im/post/5b274ee06fb9a00e3b7fa3a4

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值