C/C++实现最简单的爬虫

最新推荐文章于 2024-05-02 00:01:29 发布

Mason_Zhao

最新推荐文章于 2024-05-02 00:01:29 发布

阅读量2w

点赞数 58

分类专栏： C++ 文章标签：爬虫 c c++

本文链接：https://blog.csdn.net/qq_35987486/article/details/102885426

版权

C++ 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

作为一名程序员我觉得最简单的骚操作还是需要具备的，比如爬虫。本文主要介绍实现最简单的c++爬虫，为什么标题是c/c++呢，因为写的时候用到了一些c++内容但主要结构还是c顺序结构。主要实现了对http协议网站的图片爬取。

主要内容：

爬虫思路
开发时需要注意的地方
运行结果
需要改进的地方
完整源码

爬虫思路：

基本可分为三大步骤

用户输入起始地址
创建用来保存图片的文件夹
遍历搜索

第三步遍历搜索可细分为

从初始网站获取网页源码
从网页源码中解析出图片地址、网站地址
保存地址
去除重复
下载图片
连接下一个网站

需注意的地方：

1、去除重复

博主将解析出的图片url存在了一个vector里，对vector里元素去重采用了先排序再删掉最末尾几个元素。因为在排序时会讲相同元素全部移至容器最末尾

void deletecp()
{
    //去重 
    sort(g_photoAddr.begin(),g_photoAddr.end());                                             //unique只能比较相邻元素是否重复
    g_photoAddr.erase(unique(g_photoAddr.begin(), g_photoAddr.end()), g_photoAddr.end());  
    sort(g_htmlAddr.begin(),g_htmlAddr.end());                                             
    g_htmlAddr.erase(unique(g_htmlAddr.begin(), g_htmlAddr.end()), g_htmlAddr.end());                        //unique将重复的元素移到末尾，返回末尾中第一个重复值的地址
}

2、测试通信

解析到主机ip后需要向该主机发送一个http请求用以测试能否成功通信，此处注意http请求的编写，操作字符串真的是有一些麻烦

std::string reqInfo = "GET " + (std::string)g_path + " HTTP/1.1\r\nHost:"+(std::string)g_zhuji +
                            "\r\nConnection:Close\r\n\r\n";
    r = send(g_socket,reqInfo.c_str(),reqInfo.size(),NULL);
    if(-1 == r)
    {
        std::cout<<" failed"<<std::endl;
        return;
    }
    std::cout<<" send succeed!"<<std::endl;

3、拿到图片url后下载图片

此处最麻烦的地方仍在图片命名上，也就是字符串字符串字符串操作。下载可采用API URLDownloadToFile

void downloadImage()
{
    std::string str = "0";
    for(int i=0;i<g_photoAddr.size();i++)
    {
        char *pURL = (char*)g_photoAddr.at(i).c_str();
        std::string path = pathfile;
        path.append("/ .jpg");
        char *str;
        sprintf(str,"%d",count);
        int pos = path.find(' ');
        path.replace(pos,1,str);
        count++;
        std::cout<<path<<std::endl;
        char szBuffer[1024*128] = {0};
        unsigned long iSize = 0;
        char szPreCommand[128] = {0};
        DeleteUrlCacheEntry(pURL);//清空缓存，否则服务器上的文件修改后，无法下载最新的文件
        if (URLDownloadToFile(NULL, pURL, path.c_str(), 0, NULL)==S_OK)
        {      
            printf("URLDownloadToFile OK\n");
        }
        else
        {
            printf("URLDownloadToFile Fail,Error:%d\n", GetLastError());
        }
        //CoUninitialize();
    }
    std::cout << "all is ok" << std::endl;

}

运行结果

需要改进的地方：

对HTTPS的处理
对其他格式文件的处理
网站及文件去重
改进遍历方式

完整源码


/*
filename demo0.cpp
make g++ demo0.cpp -l ws2_32 -l Urlmon -l Wininet
环境：windows
编译器 g++
编辑器 vscode
*/


#include <iostream>
#include <string>
#include <windows.h>
#include <winsock2.h>
#include <vector>
#include <locale>
#include <stdlib.h>
#include <Urlmon.h>
#include <Wininet.h>
 
#pragma comment(lib,"Urlmon.lib")
#pragma comment(lib, "Wininet.lib")s
//#pragma comment(lib,"ws2_32.lib");
#include <windows.h>
#include <tchar.h>
#include <urlmon.h>
#include <regex>    //正则表达式
//存储主机名
char g_zhuji[256];
//存储主机名后的路径
char g_path[256];
//socket
SOCKET g_socket;
//图片序列
int count;
//图片文件夹名
std::string pathfile;
//保存所有图片地址
std::vector<std::string> g_photoAddr;
std::vector<std::string> g_htmlAddr;
/*
1、用户输入起始网址并保存
2、创建文件夹用来保存图片
3、遍历搜索（找所有网址，从网站下载图片）
    3.1从初始网址获取网页源代码
    3.2从网页源代码中解析出 图片地址 和网站地址
    3.3去除重复后保存到一个地方
    3.4下载图片
    3.5连接下一个网站
*/
//3.1.1解析网址，得到主机名
void jiexiAddr(char* addr)
{
    //http://www.win4000.com/meitu.html
    //协议前缀 http:// 
    //主机名 www.win4000.com
    //二级网址 meitu.html
    char* pos = strstr(addr,"http://"); //参数一中参数二部分的首地址
    char* pos1 = strstr(addr,"https://"); //参数一中参数二部分的首地址
    if(NULL == pos &&NULL == pos1)
    {
        return;
    }
    else
    {
        if(pos==NULL)
        {
            pos1 +=8;
            sscanf(pos1,"%[^/]%s",g_zhuji,g_path);
        }else
        {
            pos +=7;
            sscanf(pos,"%[^/]%s",g_zhuji,g_path);
        }
       

    }
    //"%[^/]%s"到斜杠为止
    
    std::cout<<"host "<<g_zhuji<<std::endl;
    std::cout<<"path "<<g_path<<std::endl;

}
//3.1.2 连接主机
void lianjieAddr()
{
    //1 获取协议版本号
    WSADATA wsaData;
    WSAStartup(MAKEWORD(2,2),&wsaData);
    if(LOBYTE(wsaData.wVersion)!=2 || HIBYTE(wsaData.wVersion)!=2)
    {
        std::cout<<" failed"<<std::endl;
        return;
    }
    //2 创建socket
    g_socket = socket(AF_INET,SOCK_STREAM,0);
    if(INVALID_SOCKET == g_socket)
    {
        std::cout<<" failed"<<std::endl;    //创建socket失败
        std::cout<<WSAGetLastError()<<std::endl;    //输出错误码
        return;
    }

    //3 拿到主机协议地址族
    sockaddr_in addr = {0};
    addr.sin_family = AF_INET;
    
    //4 绑定
    int r = bind(g_socket,(sockaddr*)&addr,sizeof addr);
    if(r==-1)
    {
        std::cout<<" failed"<<std::endl;
        return;
    }
    
    //5 通过名字拿到ip地址,域名解析
    struct hostent* p = gethostbyname(g_zhuji);
    if(p==NULL)
    {
        std::cout<<" failed"<<std::endl;
        return;
    }
    
    //6 地址放到协议地址族中
    memcpy(&addr.sin_addr,p->h_addr,4);
    addr.sin_port = htons(80);
    //7 连接服务器
    r = connect(g_socket,(sockaddr*)&addr,sizeof addr);
    if(-1==r)
    {
        std::cout<<" failed"<<std::endl;
        return;
    }

    //8 通信
    std::string reqInfo = "GET " + (std::string)g_path + " HTTP/1.1\r\nHost:"+(std::string)g_zhuji +
                            "\r\nConnection:Close\r\n\r\n";
    r = send(g_socket,reqInfo.c_str(),reqInfo.size(),NULL);
    if(-1 == r)
    {
        std::cout<<" failed"<<std::endl;
        return;
    }
    std::cout<<" send succeed!"<<std::endl;


}

void getImage(std::string& allHtmlData)
{
    std::smatch mat;
    std::regex pattern(" src=\"(.*?\\.jpg)\" ");
    std::string::const_iterator start = allHtmlData.begin();
    std::string::const_iterator end = allHtmlData.end();
    while(std::regex_search(start,end,mat,pattern))
    {
        std::string msg(mat[1].first,mat[1].second);
        g_photoAddr.push_back(msg);
        std::cout<<msg<<std::endl;
        start = mat[0].second;
    }

}
//从网页源代码中解析网站地址
void getHtml(std::string& allHtmlData)
{
    std::smatch mat;
    std::regex pattern("href=\"(http://[^\\s'\"]+)\"");
    std::string::const_iterator start = allHtmlData.begin();
    std::string::const_iterator end = allHtmlData.end();
    while(std::regex_search(start,end,mat,pattern))
    {
        std::string msg(mat[1].first,mat[1].second);
        g_htmlAddr.push_back(msg);
        std::cout<<msg<<std::endl;
        start = mat[0].second;
    }
}
//3.1.3 获取html代码
void huoquHtmlData()
{
    int n;
    char buff[1024];
    std::string allHtmlData;
    while(1)
    {
        n = recv(g_socket,buff,1023,NULL);
        if(n<=0)
            break;
        buff[n] = n;
        allHtmlData += buff;
    }
    //std::cout <<allHtmlData<<std::endl;

    //3.2从网页源代码中解析出 图片地址 和网站地址
    getHtml(allHtmlData);
    getImage(allHtmlData);
    
}
//转义函数


void downloadImage()
{
    std::string str = "0";
    for(int i=0;i<g_photoAddr.size();i++)
    {
        char *pURL = (char*)g_photoAddr.at(i).c_str();
        std::string path = pathfile;
        path.append("/ .jpg");
        char *str;
        sprintf(str,"%d",count);
        int pos = path.find(' ');
        path.replace(pos,1,str);
        count++;
        std::cout<<path<<std::endl;
        char szBuffer[1024*128] = {0};
        unsigned long iSize = 0;
        char szPreCommand[128] = {0};
        DeleteUrlCacheEntry(pURL);//清空缓存，否则服务器上的文件修改后，无法下载最新的文件
        if (URLDownloadToFile(NULL, pURL, path.c_str(), 0, NULL)==S_OK)
        {      
            printf("URLDownloadToFile OK\n");
        }
        else
        {
            printf("URLDownloadToFile Fail,Error:%d\n", GetLastError());
        }
        //CoUninitialize();
    }
    std::cout << "all is ok" << std::endl;

}
void deletecp()
{
    //去重 
    sort(g_photoAddr.begin(),g_photoAddr.end());                                             //unique只能比较相邻元素是否重复
    g_photoAddr.erase(unique(g_photoAddr.begin(), g_photoAddr.end()), g_photoAddr.end());  
    sort(g_htmlAddr.begin(),g_htmlAddr.end());                                             
    g_htmlAddr.erase(unique(g_htmlAddr.begin(), g_htmlAddr.end()), g_htmlAddr.end());                        //unique将重复的元素移到末尾，返回末尾中第一个重复值的地址
}

void snapJpg(const char* addr)
{
    //3.1从网页源代码中解析出 图片地址 和网站地址
    //3.1.1解析网址，得到主机名
    char buff[256] = {0};
    strcpy(buff,addr);
    jiexiAddr(buff);
    //3.1.2 连接主机
    lianjieAddr();
    //3.1.3 获取html代码
    huoquHtmlData();

    //3.3去除重复后保存到一个地方
    deletecp();
    //3.4下载图片
    downloadImage();

    
}




int main()
{
    //1、用户输入起始网址并保存
    std::string str;
    std::cout<<"begin url:"<<std::endl;  
    std::cin>>str;
    count = 0;
    std::string file;
    std::cout<<"files name:"<<std::endl; 
    std::cin>>file;
    std::string path = "./";
    path.append(file);
    std::cout<<path<<std::endl;
    pathfile = path;
    //2、创建文件夹用来保存图片
    //system("mkdir images");
    CreateDirectory(path.c_str(),NULL);

    //3、遍历搜索
    snapJpg(str.c_str());
    //3.5连接下一个网站
    for(int i=0;i<g_htmlAddr.size();i++)
    {
        std::cout<<"this num:"<<i<<std::endl;
        str = g_htmlAddr.at(i);
        snapJpg(str.c_str());

    }
    return 0;
}

Mason_Zhao

关注

58
点赞
踩
297

收藏

觉得还不错? 一键收藏
13
评论
C/C++实现最简单的爬虫

作为一名程序员我觉得最简单的骚操作还是需要具备的，比如爬虫。本文主要介绍实现最简单的c++爬虫，为什么标题是c/c++呢，因为写的时候用到了一些c++内容但主要结构还是c顺序结构。主要实现了对http协议网站的图片爬取。主要内容：爬虫思路开发时需要注意的地方运行结果需要改进的地方完整源码爬虫思路：基本可分为三大步骤用户输入起始地址创建用来保存图片的文件夹...
复制链接

扫一扫