最近我需要写点页面分析的东西,这些东西某些程度上类似搜索引擎的“爬虫->parser->存储”的过程。

过去我常用的抓取页面的库是libcurl,这个东西是unix常用命令curl的基础,curl被称做“命令行浏览器”,功能强大,支持的协议也全面。遗憾的是libcurl仅仅是个支持多协议的抓取库,不能做解析。

找来找去,发现了w3c的Libwww库,这东西功能强大的吓人,不仅有解析,还有robot(也就是爬虫了,或是叫internet walker)功能。在Libwww基础上完成的程序很多,最著名的大概是字符模式的浏览器lynx。我几乎就觉得这就我需要的东西了,立刻dive into。

一整天之后,我终于能用这东西抓下来页面,并且从html页面中分析出来一些信息了,但是想更进一步就变的异常困难。因为这个库功能太复杂了。这东西文档不详细,被人提及的也少。Libwww最近的Release 5.3.2,发布于2000年12月20日。一个有这么多年历史的东西,竟然没多少开发者在讨论,非常不正常。

找来找去,最后在libcurl的FAQ里面看到了和Libwww的比较,精选的读者来信告诉我,不仅仅是我一个人被Libwww的复杂弄的晕了头脑,我才花了一整天,写信的那个哥们竟然用了一人月,还是在里面打转,直到换了 curl才好。虽然这是libcurl推销自己的方法,不过这些失败的前辈的经验让我对自己的智商重新有了信心。看来这东西没多少人讨论是正常的...

好吧,我也投降,libcurl没html解析功能,这没关系,我找别的办法好了...这么复杂的库,再好我也实在没办法忍受下去了,再说我需要的功能其实也真没Libwww那么复杂的。

写程序其实很容易迷失,你会看到一个似乎很完美,什么都能做的东西,一下子就喜欢上它,但是最后往往还是无福消受。往往是那些,不那么成熟,多少有点小毛病的库,组合在一起才是真正的解决方案。


=======================================================================
from: http://www.9php.com/FAQ/cxsjl/c/2008/09/2520639129348.html

使用libcurl的post方法上传数据,很奇怪奇怪的问题!!。。。

使用libcurl的(9php.com)post方法上传数据,很奇怪奇怪的(9php.com)问题!!。。。

我用libcurl将网页下载写到一个string对象中,然后对其处理--取词。再用libcurl的(9php.com)post方法将内容上传,处理一条后就接着上传,60多条记录下来,发现有30多条没有上传上去。不知道什么原因。大家帮忙分析一下。。。

2008-9-11 15:44lemonniu
上传代码:
int CurlUpload(string XMLCode,string xmlUid)
{       

CURL *curl;                                                                                       
//        CURLcode response;    //定义CURLcode类型的(9php.com)变量
        CURLcode code;
        CURLcode retcode;
       
        code=curl_global_init(CURL_GLOBAL_ALL);    //初始化所有可能的(9php.com)调用
        if(code!=CURLE_OK)
        {
                cout<<"upload global init failed"<<endl;
                return -1;
        }

        curl = curl_easy_init();    //初始化一个CURL类型的(9php.com)指针
        if(curl==NULL)
        {
                cout<<"upload Failed create CURL connection"<<endl;       
                curl_easy_cleanup(curl);
                return -1;
        }
       
                code=curl_easy_setopt(curl,CURLOPT_URL,"http://192.168.1.210/parser/save");
                if(code!=CURLE_OK)
                {
                        cout<<"upload Failed set url"<<endl;
                        curl_easy_cleanup(curl);
                        return -1;
                }
                string request="uid="+xmlUid;
                request+="&xml="+XMLCode;

                code=curl_easy_setopt(curl, CURLOPT_POST, 1);
                if(code!=CURLE_OK)
                {
                        curl_easy_cleanup(curl);
                        cout<<"upload Failed set POST"<<endl;
                        return -1;
                }
                //code=curl_easy_setopt(curl, CURLOPT_POSTFIELDS,request.c_str());
                code=curl_easy_setopt(curl,CURLOPT_COPYPOSTFIELDS,request.c_str());
                if(code!=CURLE_OK)
                {
                        curl_easy_cleanup(curl);
                        cout<<"upload Failed set postfields"<<endl;
                        return -1;
                }

                code=curl_easy_perform(curl);
                if(code!=CURLE_OK)
                {
                        curl_easy_cleanup(curl);
                        cout<<"upload Failed to upload data"<<endl;
                        return -1;
                }

                code=curl_easy_getinfo(curl,CURLINFO_RESPONSE_CODE,&retcode);
                if ( (code == CURLE_OK) && retcode == 200 )
                {       
                        cout<<retcode<<endl;
                        cout<<"send ok"<<endl;
                        sum++;
                        curl_easy_cleanup(curl);
                        return 1;
                }
                else
                {
                        //curl_easy_cleanup(curl);
                        return -1;
                }
               
}
=======================================================================
from: http://blog.163.com/xu_chao2000/blog/static/27770610200801303252802/

libcurl应用:如何把下载内容写入内存

libcurl 的文档中有getinmemory.c这个例子,把下载的网页写入自己定义的一个memorystruct中,看了这个例子的做法,它需要自己照顾内存的开辟,特别是需要在curl_easy_perform的调用函数中释放已开辟的内存,很不利于函数的封装,而且应用于multihandle的时候,运行时会出莫名其妙的assert错误。因此改写了一下,将下载的内容放入stl的string中,这样根本不需要自己照顾内存的开辟和释放。源代码如下:

#include <string>
#include "curl.h"

using namespace std;
static char errorBuffer[CURL_ERROR_SIZE];
static int writer(char *, size_t, size_t, string *);
static bool init(CURL *&, char *,string *);

int main()
{
    CURL *conn = NULL;
    CURLcode code;
 string buffer;
 
    curl_global_init(CURL_GLOBAL_DEFAULT);
    char* url="http://cool.haxx.se/";
 if (!init(conn,url,&buffer ))
    {
        fprintf(stderr, "Connection initializion failed/n");
        exit(EXIT_FAILURE);
    }
    code = curl_easy_perform(conn);
   
    if (code != CURLE_OK)
    {
        fprintf(stderr, "Failed to get '%s' [%s]/n", url, errorBuffer);
        exit(EXIT_FAILURE);
    }
 curl_easy_cleanup(conn);
 printf("%s/n",buffer.c_str());
    return 0;
    
}

static bool init(CURL *&conn, char *url,string *p_buffer)
{
    CURLcode code;
    conn = curl_easy_init();
    if (conn == NULL)
    {
        fprintf(stderr, "Failed to create CURL connection/n");
        exit(EXIT_FAILURE);
    }
    code = curl_easy_setopt(conn, CURLOPT_ERRORBUFFER, errorBuffer);
    if (code != CURLE_OK)
    {
        fprintf(stderr, "Failed to set error buffer [%d]/n", code);
        return false;
    }
    code = curl_easy_setopt(conn, CURLOPT_URL, url);
    if (code != CURLE_OK)
    {
        fprintf(stderr, "Failed to set URL [%s]/n", errorBuffer);
        return false;
    }
    code = curl_easy_setopt(conn, CURLOPT_FOLLOWLOCATION, 1);
    if (code != CURLE_OK)
    {
        fprintf(stderr, "Failed to set redirect option [%s]/n", errorBuffer);
        return false;
    }
    code = curl_easy_setopt(conn, CURLOPT_WRITEFUNCTION, writer);
    if (code != CURLE_OK)
    {
        fprintf(stderr, "Failed to set writer [%s]/n", errorBuffer);
        return false;
    }
    code = curl_easy_setopt(conn, CURLOPT_WRITEDATA, p_buffer);
    if (code != CURLE_OK)
    {
        fprintf(stderr, "Failed to set write data [%s]/n", errorBuffer);
        return false;
    }
    return true;
}

static int writer(char *data, size_t size, size_t nmemb, string *writerData)
{
    unsigned long sizes = size * nmemb;
    if (writerData == NULL) return 0;
    writerData->append(data, sizes);
    return sizes;
}