querylist V4 列表采集_querylist4 rules-CSDN博客

本文介绍了如何使用QueryList库采集IT之家的文章列表，包括解析列表页、设置元数据采集规则、指定切片选择器以及处理广告和懒加载图片的问题。通过修正代码，成功排除第一条广告并获取正确的文章缩略图链接。

摘要由CSDN通过智能技术生成

通常情况下我们会先采集列表页，然后再循环采集列表中的每篇文章，采集列表需要用到range()函数来配合rules()函数。
在这里插入图片描述
如图我们要采集IT之家的文章列表，我标记了不同的颜色来分解页面元素：

蓝色区域：我们要采集的整个列表
红色区域：列表中的每一条文章
黄色区域：我们要采集的每条文章的元信息，标题、文章链接、简介以及缩略图
首先要分析出红色区域的选择器，我们称之为切片选择器或范围选择器，也就是range 。在这里插入图片描述如图，利用浏览器的开发者工具可以很容易分析出切片选择器为：.ulcl>li,然后我们需要在这每个切片区域中去采集文章的标题、文章链接、简介以及缩略图，利用同样的方式分析出每个元素的选择器，这里不再赘述，最终列表采集代码为：

采集代码:

use QL\QueryList;
$url = 'https://it.ithome.com/ityejie/';
$rules = [
    'title' => ['h2>a','text'],// 采集文章标题
    'link' => ['h2>a','href'],// 采集链接
    'img' => ['.list_thumbnail>img','src'],// 采集缩略图
    'desc' => ['.memo','text']// 采集文档简介
];// 元数据采集规则
$range = '.content li';// 切片选择器
$rt = QueryList::get($url)->rules($rules)->range($range)->query()->getData();
print_r($rt->all());

采集结果:

Array(
    [0] => Array        ([title] =>   [link] =>  [img] =>  [desc] => )
    [1] => Array        (
            [title] => 快讯：iOS版QQ大面积闪退（网友反映已恢复）
            [link] => https://www.ithome.com/html/it/358734.htm
            [img] => //img.ithome.com/images/v2/grey.gif
            [desc] => iOS版QQ大面积闪退，原因未知。目前根据IT之家的网友反映，目前iOS版本的QQ已经恢复，但是近期的消息记录已经消失
        )
    [2] => Array        (
            [title] => 阿里影业公布截至近15个月业绩：营收33亿元，增幅130%
            [link] => https://www.ithome.com/html/it/358728.htm
            [img] => //img.ithome.com/images/v2/grey.gif
            [desc] =>  阿里影业集团公布截至2018年3月31日的十五个月财务业绩：报告期内公司营业收入达到33.03亿元，较上一年同期十五个月的14.32亿元，增长幅度超130%
        )
    // ....
）

数据是采集回来了，但我们发现有一点瑕疵，结果里面有一条结果是空的，且文章缩略图链接不正确。
在这里插入图片描述
如图我们再次分析页面可以得知，第一条切片区域是广告，所以采集的第一条结果为空；而文章列表的缩略图使用了懒加载，所以图片的真正链接在img的data-original属性上，修正后的代码如下：

采集代码:

use QL\QueryList;
$url = 'https://it.ithome.com/ityejie/';
$rules = [
    'title' => ['h2>a','text'],// 采集文章标题
    'link' => ['h2>a','href'],// 采集链接
    'img' => ['.list_thumbnail>img','data-original'],// 采集该页的图片链接属性
    'desc' => ['.memo','text']// 采集文档简介
];// 元数据采集规则
$range = '.content li:gt(0)';// 切片选择器,跳过第一条广告
$rt = QueryList::get($url)->rules($rules) ->range($range)->query()->getData();
print_r($rt->all());

采集结果:

Array(
    [0] => Array        (
            [title] => 快讯：iOS版QQ大面积闪退（网友反映已恢复）
            [link] => https://www.ithome.com/html/it/358734.htm
            [img] => //img.ithome.com/newsuploadfiles/thumbnail/2018/5/358734_240.jpg
            [desc] => iOS版QQ大面积闪退，原因未知。目前根据IT之家的网友反映，目前iOS版本的QQ已经恢复，但是近期的消息记录已经消失
        )
    [1] => Array        (
            [title] => 阿里影业公布截至近15个月业绩：营收33亿元，增幅130%
            [link] => https://www.ithome.com/html/it/358728.htm
            [img] => //img.ithome.com/newsuploadfiles/thumbnail/2018/5/358728_240.jpg
            [desc] =>  阿里影业集团公布截至2018年3月31日的十五个月财务业绩：报告期内公司营业收入达到33.03亿元
        )
    // ....
)