写一个简单的爬虫程序需要使用到一些网络库,例如libcurl。下面是一个简单的C语言爬虫程序,它从指定的URL下载网页内容:
#include <stdio.h>
#include <curl/curl.h>
// 回调函数,当libcurl接收到一部分数据时调用
size_t write_callback(void *contents, size_t size, size_t nmemb, void *userp) {
((std::string*)userp)->append((char*)contents, size * nmemb);
return size * nmemb;
}
int main(void) {
CURL *curl;
CURLcode res;
std::string readBuffer;
curl = curl_easy_init(); // 初始化CURL会话
if(curl) {
curl_easy_setopt(curl, CURLOPT_URL, "http://example.com"); // 设置要爬取的URL
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_callback); // 设置回调函数
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer); // 将读取的数据保存到readBuffer中
res = curl_easy_perform(curl); // 执行爬取操作
curl_easy_cleanup(curl); // 清理CURL会话
if(res != CURLE_OK) {
fprintf(stderr, "curl_easy_perform() failed: %s\n", curl_easy_strerror(res)); // 输出错误信息
} else {
printf("%s\n", readBuffer.c_str()); // 输出爬取到的网页内容
}
} else {
fprintf(stderr, "Could not initialize curl easy\n"); // 输出初始化失败的错误信息
}
return 0;
}
这个程序使用了libcurl库,首先初始化一个CURL会话,然后设置要爬取的URL、回调函数和数据保存的位置,然后执行爬取操作,最后清理CURL会话。在回调函数中,我们将接收到的数据保存到一个字符串中,以便后续处理。在主函数中,我们检查是否有错误发生,如果有则输出错误信息,否则输出爬取到的网页内容。