c++爬取网站图片

 这个是获取源码的代码,至于有什么作用和整理数据在下一篇博客

#define _CRT_SECURE_NO_WARNINGS 
#include <iostream>  
#include<string>//包含string类
#include<windows.h>
#include<winsock.h>
// Need to link with Ws2_32.lib
#pragma comment(lib, "ws2_32.lib")

using namespace std;
//http://www.imetou.com/nvsheng/257564.html
int main() {
	//用户输入一个网址
	string str;

	cout << "请输入一个网址" << endl;
	cin >> str;

	cout << "你输入的网址是" <<str<< endl;

	//网址解析获得域名和路径
	//三段 第一段是http://
	//第二段是域名
	//第三段是地址
	char zhuji[256] = {0};//给每一个字符都赋值为0
	char dizhi[256] = {0};

	const char* p = strstr(str.c_str(), "http://");
	if (NULL == p)
	{
		cout << "没找到" << endl;
	}
	else
	{
		cout << "找到了" << endl;
		cout << p << endl;
	}

	p += 7;//将指针往后移动七位,将指针指向第一个w

	sscanf(p, "%[^/]%s", zhuji, dizhi);//通过/来将前后分开(这个是c中的用法)
	cout << zhuji << endl;
	cout << dizhi << endl;

	//1 获取协议版本号
	WSADATA wsaData;
	WSAStartup(MAKEWORD(2,2), & wsaData);
	if (LOBYTE(wsaData.wVersion) != 2 || HIBYTE(wsaData.wVersion) != 2)
	{
		cout << "请求版本号失败" << endl;
		return -1;
	}
	cout<<"请求版本号成功!"<<endl;
	//2 创建socket
	SOCKET	g_socket = socket(AF_INET, SOCK_STREAM, 0);
	if (SOCKET_ERROR == g_socket) {
		cout << "创建socket失败!" << endl;
		return-1;
	}
	cout << "创建socket成功!" << endl;
	//3 创建协议地址族
	SOCKADDR_IN addr = { 0 };
	addr.sin_family = AF_INET;//必须和socket函数第一个参数一致
	//4 绑定
	int r=bind(g_socket,(sockaddr*)&addr, sizeof addr);
	if (-1 == r)
	{
		cout<<"绑定失败!"<<endl; 
		return -1;
	}
	printf("绑定成功!\n");
	//5 拿到主机ip地址
	struct hostent* p1 = gethostbyname(zhuji);//192.168.0.44利用主机获取ip地址
	if (NULL == p1)
	{
		cout << "获取主机地址失败!" << endl;
		return -1;
	}
		cout<<"获取主机地址成功!"<<endl;

		memcpy(&addr.sin_addr, p1->h_addr, 4);//把主机地址放入协议地址
		addr.sin_port = htons(80);//设置主机端口号 了浏览器


	//6 连接服务器
		r = connect(g_socket, (sockaddr*)&addr, sizeof addr); 
		if (-1 == r)
		{
			cout << "连接服务器失败!"<<endl;
			return -1;
		}
		cout << "连接服务器成功!" << endl;



	//7 通信:发送获取源代码请求
	//请求信息
	string regInfo = "GET " + (string)dizhi + " HTTP/1.1\r\nHost:"+(string)zhuji +"\r\nconnection:close\r\n\rn";
		//发送请求信息到服务器
		 r=send(g_socket,regInfo.c_str(),regInfo.size(),NULL);
		 if (r > 0)
		 {
			 printf("发送请求信息成功!\n");
		 }
		 else 
		 {
			 printf("发送请求信息失败,失败原因:%d\n", WSAGetLastError());
		 }
	//网络连接到域名
	//申请获得网页源代码

		 string allHtml;//村源代码的字符串
		 char buff[1024];//临时存放

		 while (1)
		 {
			 r = recv(g_socket, buff, 1023, NULL);
			 if (r > 0)
			 {
				 buff[r] = 0;//添加结束符号
				 allHtml += string(buff);//强转
			 }
			 else
			 {
				 break;
			 }
		 }
		 cout << "源码如下:" << endl;

		 cout << allHtml << endl;
		 cout << "==========================" << endl;




	//网页源代码中解析
	//网址
	//图片链接地址
	
	//循环2-5步
	

	//同时并发的下载图片




return 0;
}

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值