C++ 爬虫程序

C++ 爬虫程序

项目描述

使用 C++ 编程语言,实现一个 爬虫程序,来对图片进行下载。

开发平台

Windows 10

流程介绍

在这里插入图片描述

  1. 先输入一个起始 URL 进入 URL 队列。

  2. 在当前路径下创建一个文件夹。

    #include <Windows.h>
    
    CreateDirectory("./images", NULL);
    
  3. 获取到当前队列中首部的 URL。

  4. 解析 URL,主要作用是判断是否是正确的 URL,并且获取到服务器域名和资源路径。

  5. 连接服务器。

    gethostbyname(std::string); // 通过这个函数获取到服务器的 IP 地址 
    
  6. 获取网页源码。

    向服务器发送 HTTP 请求。获取到网页源码。

  7. 使用正则表达式解析网页源码。

    • 如果是图片 URL 就放进先前创建好的数组中。
    • 如果是其他 URL 就放进队列中,让其后续循环处理。
  8. 下载图片。

    循环遍历刚才存放图片的数组,重新对图片的 URL 建立连接和获取源码。

    去除服务器返回的 HTTP 头部信息,将正文信息写到一个新创建的文件里,放到之前创建的文件夹。

源代码

GitHub

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值