网页爬虫的最简C/C++程序代码示例------先通过列表获取所有博文id, 然后遍历所有博文id

最新推荐文章于 2024-05-11 06:21:00 发布

涛歌依旧

最新推荐文章于 2024-05-11 06:21:00 发布

阅读量2w

点赞数 16

分类专栏： S1: C/C++ S1: Web s2: 软件进阶

本文链接：https://blog.csdn.net/stpeace/article/details/73028821

版权

s2: 软件进阶同时被 3 个专栏收录

1053 篇文章 74 订阅

订阅专栏

S1: C/C++

972 篇文章 329 订阅

订阅专栏

S1: Web

133 篇文章 57 订阅

订阅专栏

做个网页爬虫很简单，本文我们来用C/C++语言玩一下，所用环境是Windows + VC++6.0, 其余平台也类似。

郑重说明：请勿用作非法或者商业用途，否则后果自负

我们在新浪上随便找一个博客，比如：http://blog.sina.com.cn/u/5890965060，我们可以看到，博主的用户名是：5890965060, 我们访问列表，并用fidder抓包，可以确定列表访问格式，直接上代码吧（如下程序只考虑功能，不考虑性能）：

#include <stdio.h>
#include <winsock2.h>
#pragma comment(lib, "ws2_32.lib")

int getRand(int n)
{
	return rand() % n + 1;
}

int main()
{
	int j = 1;
	for(j = 1; j <= 12; j++) // 博主的博文有12个列表
	{
		int flag = 0;
		WSADATA wsaData;
		WSAStartup(MAKEWORD(1,1), &wsaData);
		char szWeb[] = "blog.sina.com.cn";  // 新浪博客
		HOSTENT *pHost = gethostbyname(szWeb);
		const char* pIPAddr = inet_ntoa(*((struct in_addr *)pHost->h_addr)) ;
		printf("web server ip is : %s\n", pIPAddr);

		SOCKADDR_IN  webServerAddr;
		webServerAddr.sin_family = AF_INET;
		webServerAddr.sin_addr.S_un.S_addr=inet_addr(pIPAddr);
		webServerAddr.sin_port = htons(80);

		SOCKET sockClient = socket(AF_INET, SOCK_STREAM, 0);
		int nRet = connect(sockClient ,(struct sockaddr*)&webServerAddr, sizeof(webServerAddr));
		if(nRet < 0)
		{
			printf("connect error\n");
			return 1;
		}

		// 该博主博客列表访问格式/s/articlelist_5890965060_0_%d.html
		char szHttpRest[1024] = {0};
		sprintf(szHttpRest, "GET /s/articlelist_5890965060_0_%d.html HTTP/1.1\r\nHost:%s\r\nConnection: Keep-Alive\r\n\r\n", j, szWeb);

		printf("send buf is:\n");
		printf("%s\n", szHttpRest);

		nRet = send(sockClient , szHttpRest, strlen(szHttpRest) + 1, 0);
		if(nRet < 0)
		{
			printf("send error\n");
			return 1;
		}

		FILE *fp = fopen("test.txt", "a+");
		while(1)
		{
		    char szRecvBuf[2] = {0};
			nRet = recv(sockClient ,szRecvBuf, 1 ,0);
			
			if(nRet < 0)
			{
				printf("recv error\n");
				goto LABEL;
			}			
			
			if(0 == nRet)
			{
				printf("connection has been closed by web server\n");
				goto LABEL;
			}
			
			if(0 == flag)
			{
				printf("writing data to file...\n");
				flag = 1;
			}

			fputc(szRecvBuf[0], fp);
		}


	LABEL: 
		fclose(fp);
		closesocket(sockClient);  
		WSACleanup();  

		printf("list index is ------------------------------------> %d\n\n\n", j);
		Sleep(1000 * getRand(1));
	}

	printf("\n\n\ndone!!!!!!\n\n\n");

    return 0;
}

过滤test.txt文件发现(过滤原则依赖于fiddler抓包，从而确定博文链接的格式)：

对照一下原博文：

完全吻合。

如上过程就获取了每一篇博文的id, 也就是说，获取到了每一篇博文的链接地址，剩下的工作，只需要稍微修改下上面的程序，遍历访问博文链接地址，就获取获取所有博文内容了。

如果对上述程序进行优化控制，完全可以做到自动化地获获取所有信息，不需要人工干预中间过程。

当然，上述程序不仅仅是针对新浪，也可以针对其他类似网站。原理都一样，其实还是蛮简单的，就先说到这里了。

涛歌依旧

关注

16
点赞
踩
60

收藏

觉得还不错? 一键收藏
14
评论
网页爬虫的最简C/C++程序代码示例------先通过列表获取所有博文id, 然后遍历所有博文id

做个网页爬虫很简单，本文我们来用C/C++语言玩一下，所用环境是Windows + VC++6.0, 其余平台也类似。郑重说明：请勿用作非法或者商业用途，否则后果自负。我们在新浪上随便找一个博客，比如：http://blog.sina.com.cn/u/5890965060，我们可以看到，博主的用户名是：5890965060,
复制链接

扫一扫