网络爬虫十-区分文本文件和二进制文件

HTTP协议支持文本和二进制文件传输。最常见的html格式的页面即文本,图片、音乐等为二进制文件。我们要对这两类文件加以区分并分别处理。

static char * BIN_SUFFIXES = ".jpg.jpeg.gif.png.ico.bmp.swf";  
static int is_bin_url(char *url)  
{  
    char *p = NULL;  
    if ((p = strrchr(url, '.')) != NULL) {  
        if (strstr(BIN_SUFFIXES, p) == NULL)  
            return 0;  
        else  
            return 1;  
    }  
    return 0;  
}  
char * attach_domain(char *url, const char *domain)  
{  
    if (url == NULL)  
        return NULL;  

    if (strncmp(url, "http", 4) == 0) {  
        return url;  

    } else if (*url == '/') {  
        int i;  
        int ulen = strlen(url);  
        int dlen = strlen(domain);  
        char *tmp = (char *)malloc(ulen+dlen+1);  
        for (i = 0; i < dlen; i++)  
            tmp[i] = domain[i];  
        for (i = 0; i < ulen; i++)  
            tmp[i+dlen] = url[i];  
        tmp[ulen+dlen] = '\0';  
        free(url);  
        return tmp;  

    } else {  
        //do nothing  
        free(url);  
        return NULL;  
    }  
}  

char * url2fn(const Url * url)  
{  
    int i = 0;  
    int l1 = strlen(url->domain);  
    int l2 = strlen(url->path);  
    char *fn = (char *)malloc(l1+l2+2);  

    for (i = 0; i < l1; i++)  
        fn[i] = url->domain[i];  

    fn[l1++] = '_';  

    for (i = 0; i < l2; i++)  
        fn[l1+i] = (url->path[i] == '/' ? '_' : url->path[i]);  

    fn[l1+l2] = '\0';  

    return fn;  
}  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值