网站信息的采集系列(三)--百度搜索图片的采集及下载

19 篇文章 1 订阅

本文实现在百度图片搜索栏中自动输入关键字搜索(以“军事”为例),并自动采集搜索的内容,采集内容包含图片标题,图片链接,显示在表中,并将图片下载到指定目录,效果如下图所示:

(一)网页分析

关键字输入框及搜索按钮

注意点击的是s_btn。

图片显示页面

图片标题存储在data-title的属性中,图片地址存储在data-objurl属性中。当图片增多时Imgpage会有更多。

(二)主要代码

输入关键字及点击搜索:

var keyword_input_element = document.getElementById('kw');

var search_elements = document.getElementsByClassName('s_btn');

keyword_input_element.value = '军事';

  //点击百度一下按钮

  search_elements[0].click();

获取图片信息的代码:

var imgid_element = document.getElementById('imgid');
if (imgid_element){
    var imgpage_elements = document.getElementsByClassName('imgpage');
    if (imgpage_elements && imgpage_elements.length > 0){
        for (var i = 0;i < imgpage_elements.length;i ++){
            var ul_elements = imgpage_elements[i].getElementsByTagName('ul');
            if (ul_elements && ul_elements.length > 0){
                var li_elememts = ul_elements[0].getElementsByTagName('li');
                for (var j = 0;j < li_elememts.length;j ++){
                    const regex = /<[^>]+>/gi;
                    var title = li_elememts[j].getAttribute('data-title');
                    var link = li_elememts[j].getAttribute('data-objurl');
                }
            }
        }
    }
};
 
获取到图片的地址后,利用QWebEnginePage::download函数可以很方便地下载图片。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

视图猿人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值