querylist V4 列表采集

通常情况下我们会先采集列表页,然后再循环采集列表中的每篇文章,采集列表需要用到range()函数来配合rules()函数。
在这里插入图片描述
如图我们要采集IT之家的文章列表,我标记了不同的颜色来分解页面元素:

蓝色区域:我们要采集的整个列表
红色区域:列表中的每一条文章
黄色区域:我们要采集的每条文章的元信息,标题、文章链接、简介以及缩略图
首先要分析出红色区域的选择器,我们称之为切片选择器或范围选择器,也就是range 。在这里插入图片描述如图,利用浏览器的开发者工具可以很容易分析出切片选择器为:.ulcl>li,然后我们需要在这每个切片区域中去采集文章的标题、文章链接、简介以及缩略图,利用同样的方式分析出每个元素的选择器,这里不再赘述,最终列表采集代码为:

采集代码:

use QL\QueryList;
$url = 'https://it.ithome.com/ityejie/';
$rules = ['title' => ['h2>a','text'],// 采集文章标题'link' => ['h2>a','href'],// 采集链接'img' => ['.list_thumbnail>img','src'],// 采集缩略图'desc' => ['.memo','text']// 采集文档简介
];// 元数据采集规则
$range = '.content li';// 切片选择器
$rt = QueryList::get($url)->rules($rules)->range($range)->query()->getData();
print_r($rt->all());

采集结果:

Array([0] => Array([title] =>   [link] =>  [img] =>  [desc] => )
    [1] => Array        (
            [title] => 快讯:iOS版QQ大面积闪退(网友反映已恢复)
            [link] => https://www.ithome.com/html/it/358734.htm
            [img] => //img.ithome.com/images/v2/grey.gif
            [desc] => iOS版QQ大面积闪退,原因未知。目前根据IT之家的网友反映,目前iOS版本的QQ已经恢复,但是近期的消息记录已经消失
        )
    [2] => Array        (
            [title] => 阿里影业公布截至近15个月业绩:营收33亿元,增幅130%
            [link] => https://www.ithome.com/html/it/358728.htm
            [img] => //img.ithome.com/images/v2/grey.gif
            [desc] =>  阿里影业集团公布截至2018331日的十五个月财务业绩:报告期内公司营业收入达到33.03亿元,较上一年同期十五个月的14.32亿元,增长幅度超130%
        )
    // ....

数据是采集回来了,但我们发现有一点瑕疵,结果里面有一条结果是空的,且文章缩略图链接不正确。
在这里插入图片描述
如图我们再次分析页面可以得知,第一条切片区域是广告,所以采集的第一条结果为空;而文章列表的缩略图使用了懒加载,所以图片的真正链接在img的data-original属性上,修正后的代码如下:

采集代码:

use QL\QueryList;
$url = 'https://it.ithome.com/ityejie/';
$rules = ['title' => ['h2>a','text'],// 采集文章标题'link' => ['h2>a','href'],// 采集链接'img' => ['.list_thumbnail>img','data-original'],// 采集该页的图片链接属性'desc' => ['.memo','text']// 采集文档简介
];// 元数据采集规则
$range = '.content li:gt(0)';// 切片选择器,跳过第一条广告
$rt = QueryList::get($url)->rules($rules)->range($range)->query()->getData();
print_r($rt->all());

采集结果:

Array(
    [0] => Array        (
            [title] => 快讯:iOS版QQ大面积闪退(网友反映已恢复)
            [link] => https://www.ithome.com/html/it/358734.htm
            [img] => //img.ithome.com/newsuploadfiles/thumbnail/2018/5/358734_240.jpg
            [desc] => iOS版QQ大面积闪退,原因未知。目前根据IT之家的网友反映,目前iOS版本的QQ已经恢复,但是近期的消息记录已经消失
        )
    [1] => Array        (
            [title] => 阿里影业公布截至近15个月业绩:营收33亿元,增幅130%
            [link] => https://www.ithome.com/html/it/358728.htm
            [img] => //img.ithome.com/newsuploadfiles/thumbnail/2018/5/358728_240.jpg
            [desc] =>  阿里影业集团公布截至2018331日的十五个月财务业绩:报告期内公司营业收入达到33.03亿元
        )
    // ....
)

就这样采集到了IT之家的文章列表以及文章内容

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
QueryList 是一个基于Python的Web数据采集框架,它提供了简单易用的API,可以方便地从网页中提取数据。该框架基于XPath和CSS选择器进行数据提取,并且支持多线程和分布式采集。 使用QueryList,你可以通过发送HTTP请求获取网页内容,并通过提供的选择器来提取所需的数据。它还内置了一些常用的数据处理方法,如去除HTML标签、字符串处理、日期格式化等。 QueryList的安装非常简单,你只需使用pip命令即可安装: ``` pip install querylist ``` 安装完成后,你可以在Python代码中导入QueryList并开始使用它来进行网页数据采集和处理。 以下是一个简单的示例代码,展示了如何使用QueryList框架进行数据采集: ```python from querylist import QueryList # 创建一个QueryList对象 ql = QueryList() # 发送HTTP请求并获取网页内容 ql.get('http://example.com') # 使用XPath选择器提取标题和链接 data = ql.xpath('//h3/a') # 遍历提取到的数据并打印 for item in data: print(item.text(), item.attr.href) ``` 以上代码中,我们首先创建了一个QueryList对象,然后使用get方法发送HTTP请求获取网页内容。接着使用xpath方法提取标题和链接的数据,并通过遍历打印出来。 QueryList还有很多其他功能和方法,比如支持POST请求、模拟登录、代理设置等。你可以查看官方文档以获得更详细的信息和示例代码。 注意:本AI助手回答的问题仅供参考,对于具体的代码实现和功能细节,请以官方文档或代码示例为准。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值