小型抓图爬虫程序实现c++

小型抓图爬虫程序实现c++


最近得到偶然机会到公司实习,实践发现有很多东西不懂。特别是网络编程方面,故写一个基于socket的网络爬虫来稍微了解一下网络结构之类的东西。哈哈。

这个程序主要功能是实现了给定一个主网页,然后抓取它以及它的链接网页的图片。
实现方法是,先把主网页从page_url队列中提取,再提取其中的a标签href链接和img标签的src链接,分别加入page_url队列和image_url队列。再重复上述步骤,即,删除page_url头结点,提取其中链接。

因为新手,程序性能也比较低下,所以设置了当提取页面数太多时,停止提取url的操作。

放代码!

functions.h头文件:

#ifndef FUNCTIONS_H
#define FUNCTIONS_H

#include <string>  
#include <iostream>
#include <fstream>
#include <list>
#include "winsock2.h"
#include <time.h>
#include <queue>
#include <hash_set>

#pragma comment(lib, "ws2_32.lib")


bool GetHttpRespond(const std::string& url, char * &respond, int& bytes_read);

bool ParseUrl(const std::string& url, std::string& host, std::string& resource);

bool GetPagesAndImages(std::string main_url, std::list<std::string>& images_url);

bool UrlDownloadToFile(std::list<std::string> images_url);

std::string GetFileName(const std::string url);
#endif

functions.cpp:

#include "functions.h"
#include <iostream>
#include <urlmon.h>

#define DEFAULT_PAGE_BUF_SIZE 1048576
#define A_TAG_SIZE 500
#define IMAGE_TAG_SIZE 500
#define TEMP_SIZE 500

bool GetHttpRespond(const std::string& url, char * &respond, int& bytes_read){

    //初始化WSA
    WSADATA wsaData;
    if (WSAStartup(MAKEWORD(2,2), &wsaData) != 0)
    {
        std::cout << "WSA failed to start!\n";
        return false;
    }

    //解析url
    std::string host,resource;
    if (!ParseUrl(url, host, resource)){
        std::cout &l
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值