一只简单的网络爬虫(基于linux C/C++)————Url处理以及使用libevent进行DNS解析

Url处理

爬虫里使用了两个数据结构来管理Url
下面的这个数据结构用来维护原始的Url,同时有一个原始Url的队列

//维护url原始字符串
typedef struct Surl {
    char  *url;
    int    level;//url抓取深度
    int    type;//抓取类型
} Surl;

原始的Url队列static queue <Surl *> surl_queue;//这个队列存放解析前的
下面的Url结构体用来维护解析后的url,同样的,配有一个url的队列

//解析后的
typedef struct Url {
    char *domain;//域名
    char *path;//路径
    int  port;//端口
    char *ip;//IP
    int  level;//深度
} Url;

解析后的url队列static queue<Url *> ourl_queue;//这个队列存放DNS解析后的
另外,采用一个map容器用来保存域名解析前后的url的主机名称和ip地址

static map<string, string> host_ip_map;//主机,ip的map容器

采用这样的方式的原因是,DNS解析是一个比较浪费时间的过程,解析过的主机名我们将其与ip地址采用map关联起来,因为同一个html页面里可能会有多个url是同一个主机名的,这样一来我们可以直接在map容器中查找该主机名对应的ip,而不必每次都进行DNS解析,这样做可以达到提高效率的效果
两个队列的一些常见的操作(出入队列等)这里就不在弹了
下面看看一个url解析的函数

//解析域名,解析域名后surl队列中surl结构体会转化为url结构体放入url队列
void * urlparser(void *none)
{
    Surl *url = NULL;
    Url  *ourl = NULL;
    map<string, string>::const_iterator itr;
    //event_base * base = event_base_new();
    //evdns_base * dnsbase = evdns_base_new(base, 1);
    //event_base_loop(base,EVLOOP_NONBLOCK);

    while(1) {
        pthread_mutex_lock(&sq_lock);
        while (surl_queue.empty()) //surl队列为空则一直等待,直到被唤醒
        {
            pthread_cond_wait(&sq_cond, &sq_lock);
        }
        url = surl_queue.front();//取出surl队列中的url
        surl_queue.pop();
        pthread_mutex_unlock(&sq_lock);

        ourl = surl2ourl(url);//原始的结构体转化为ourl
         //在回调函数中解析完加进去的 
        itr = host_ip_map.find(ourl->domain);//在主机IP的map中寻找
        if (itr == host_ip_map.end())//找不到的才需要解析,找到说明之前解析过了 
        { // not found  
          //解析DNSdns resolve
            event_base * base = event_init();//执行一次libevent库的初始化
            evdns_init();//在使用任何解析器函数之前,必须调用evdns_init()函数初始化函数库
            evdns_resolve_ipv4(ourl->domain, 0, dns_callback, ourl);//dns_callback回调函数
            event_dispatch();
            event_base_free(base);

            //evdns_base_resolve_ipv4(dnsbase, ourl->domain, 0, dns_callback, ourl);
            //event_base_loop(base, EVLOOP_ONCE | EVLOOP_NONBLOCK);
        } 
        else 
        {
            ourl->ip = strdup(itr->second.c_str());//之前解析过,直接拷贝
            push_ourlqueue(ourl);//送入队列
        }
    }

    //evdns_base_free(dnsbase, 0);
    //event_base_free(base);
    return NULL;
}

surl2ourl(Surl * surl)函数如下,主要是将原始的url进行分割,分离出域名和路径,端口等,然后填入解析后的url结构

//原始字符串Surl结构转化为url结构,
static Url * surl2ourl(Surl * surl)
{//calloc在动态分配完内存后,自动初始化该内存空间为零,而malloc不初始化,里边数据是随机的垃圾数据
    Url *ourl = (Url *)calloc(1, sizeof(Url));
//strchr函数原型:extern char *strchr(const char *s,char c);查找字符串s中首次出现字符c的位置。
    char *p = strchr(surl->url, '/');
    if (p == NULL)//原始字符串不存在'/'
    {
        ourl->domain = surl->url;//直接是域名
        ourl->path = surl->url + strlen(surl->url);//路径其实是空的
    } 
    else 
    {
        *p = '\0';//覆盖'/'
        ourl->domain = surl->url;//提取域名
        ourl->path = p+1;//提取路径
    }
    // port端口,冒号后面是端口
    //查找字符在指定字符串中从正面开始的最后一次出现的位置
    p = strrchr(ourl->domain, ':');//找最后一个出现的冒号
    if (p != NULL) 
    {
        *p = '\0';
        ourl->port = atoi(p+1);
        if (ourl->port == 0)
            ourl->port = 80;

    } 
    else //Url中若没有端口号,则是默认的80端口
    {
        ourl->port = 80;
    }
    // level
    ourl->level = surl->level;
    return ourl;
}

urlparser函数主要完成了下面的工作,surl转化为url结构,查找map容器,如果是之前未解析的,采用lievent进行域名解析,然后加入map容器,url结构进入ourl队列

lievent的DNS解析

lievent的使用可以参考libevent Documentation
主要是使用了该函数
这里写图片描述

int evdns_resolve_ipv4  (const char *name,
int flags,
evdns_callback_type callback,
void *  ptr 
)       

参数

name:是想要DNS解析的一个主机名
flags:可以填 0,或者 DNS_QUERY_NO_SEARCH 禁用搜索此查询
callback:是一个回调函数,在解析完成的时候会回调该函数 
ptr:    一个传给回调函数的参数

在回调函数中可以得到解析后的ip地址

//DNS解析回调函数
static void dns_callback(int result, char type, int count, int ttl, void *addresses, void *arg) 
{
    Url * ourl = (Url *)arg;
    struct in_addr *addrs = (in_addr *)addresses;

    if (result != DNS_ERR_NONE || count == 0) 
    {
        SPIDER_LOG(SPIDER_LEVEL_WARN, "Dns resolve fail: %s", ourl->domain);
    } 
    else
   {
        char * ip = inet_ntoa(addrs[0]);//网络字节序转化为主机字节序
        SPIDER_LOG(SPIDER_LEVEL_DEBUG, "Dns resolve OK: %s -> %s", ourl->domain, ip);
        host_ip_map[ourl->domain] = strdup(ip);//ip填入domain对应的ip
        ourl->ip = strdup(ip);//ip填入ourl
        push_ourlqueue(ourl);//加入队列
    }
    event_loopexit(NULL); // not safe for multithreads 
}

另外,在主函数中,专门开了一个线程用来进行url的DNS解析的

// 启动用于解析DNS的线程 
    int err = -1;
    if ((err = create_thread(urlparser, NULL, NULL, NULL)) < 0) 
    {//urlparser在url.cpp中
        SPIDER_LOG(SPIDER_LEVEL_ERROR, "创建Url解析线程失败: %s", strerror(err));
    }

只要原始的url队列不为空,则一直进行DNS的解析,解析后放入另一个队列,若原始url为空(还没有抓取其他的url),则一直在等待,使用的是条件变量

 pthread_cond_wait(&sq_cond, &sq_lock);

知道surl队列有url入队,被唤醒继续进行DNS解析的服务

//发送一个信号给另外一个正在处于阻塞等待状态的线程,
    //使其脱离阻塞状态,继续执行.如果没有线程处在阻塞等待状态,
    //pthread_cond_signal也会成功返回
        if (surl_queue.size() == 1)
            pthread_cond_signal(&sq_cond);
  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: libevent是一个开源的C语言网络编程库,主要用于处理高并发网络连接。它提供了对事件驱动的支持,使得开发者可以方便地编写高效的并发网络应用程序。 libevent的核心是事件循环机制。在传统的网络编程中,通常需要使用多线程或多进程来处理并发连接,而使用libevent可以通过一个事件循环来处理多个连接。在事件循环中,可以注册多个事件,并定义回调函数来处理事件的触发。当有事件发生时,libevent会调用相应的回调函数来处理事件的处理逻辑。这样可以大大简化并发编程的复杂性,并提高程序的性能。 libevent的事件模型基于操作系统提供的I/O多路复用机制,如select、poll和epoll等。它可以在不同的操作系统平台上运行,并提供一致的接口和高效的事件处理机制。借助这些机制,libevent可以同时处理大量的并发连接,并保持低延迟和高吞吐量。 除了处理网络连接,libevent还提供了其他常用的功能,如定时器和信号处理等。它允许开发者在事件循环中注册定时器事件,可以用于定时任务的调度。同时,libevent还可以处理来自操作系统的信号,并提供了对信号的处理接口,以便开发者能够处理各种系统事件。 总之,libevent是一个功能强大、简单易用的高并发网络编程库,适用于开发各种类型的网络应用。无论是开发服务器、代理、聊天程序还是实时应用,libevent都能帮助开发者快速编写高性能的并发网络程序。 ### 回答2: libevent是一个开源的C/C++网络库,用于高性能的事件驱动编程。它提供了一个轻量级、可移植的框架,用于开发高并发的网络应用程序。 它的设计目标是提供一个高效的事件处理器,可以处理成千上万个并发连接,并且支持多线程并发处理libevent基于事件驱动模型,通过异步I/O和回调函数来实现高并发处理网络请求。 libevent提供了一系列的函数来注册和监听各种网络事件,包括读、写、超时和信号等等。当一个事件发生时,libevent会调用相应的回调函数来处理事件。通过这种方式,我们可以非常方便地处理并发连接,并实现高性能的网络编程。 libevent的优点主要包括: 1. 高性能:libevent使用异步I/O和事件驱动模型,能够处理成千上万个并发连接,具有很高的处理能力。 2. 可移植性:libevent提供了统一的接口,可以在多种操作系统上运行,包括Linux、Windows、Mac等。 3. 易用性:libevent简单易用,只需注册感兴趣的事件和相应的回调函数,就可以实现高效的网络编程。 4. 多线程支持:libevent支持多线程并发处理,可以充分利用多核CPU的性能优势。 总之,libevent是一款非常适合高并发网络编程的开源库,它可以帮助我们实现高性能的服务器程序,提升系统的并发处理能力。无论是开发网络服务器还是网络应用程序,libevent都是一个不错的选择。 ### 回答3: libevent 是一个用于高并发网络编程的 C/C++ 库。它提供了一个跨平台的异步事件驱动的网络编程框架,能够实现高效地处理大量并发连接的需求。 libevent 的主要特点包括: 1. 异步事件驱动:libevent 使用事件驱动模型,主要利用非阻塞 I/O 和事件回调机制,能够高效地处理大量并发事件。 2. 跨平台支持:libevent 提供了跨不同操作系统的支持,包括 Windows、Linux、Unix 等,并且提供了统一的 API 接口,方便开发者进行跨平台开发。 3. 支持多种网络协议:libevent 支持 TCP、UDP、HTTP 等多种网络协议,为开发者提供了丰富的网络编程能力。 4. 高性能:libevent 的设计目标之一是高性能,它通过使用多路复用技术,将系统资源高效地利用起来,能够同时处理大量并发连接,并且保持低延迟。 5. 灵活易用:libevent 提供了简洁的 API,使用起来非常方便,可以快速实现高并发网络编程的需求。 总之,libevent 是一个强大而灵活的 C/C++ 库,适用于各种需要处理高并发连接的网络应用程序。无论是开发高性能服务器、代理、负载均衡器还是其他类似应用,libevent 都是一个值得推荐的选择。它的高效性能、跨平台支持和简洁易用的 API 接口使得开发者能够快速构建稳定可靠的高并发网络应用。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值