VS实现一个爬虫程序<c++>获取网页源代码

目的:写一个爬虫程序,可以进入http开头的网页,将网页的源代码显示出来.

结果展示:

思路:

1.解析网址

2.连接服务器->发请求

3.接收源代码并存储起来

函数:

1.解析网址函数:

http://......./......

//....../之间的字符我们将其存储到urlAddr[]当中

/......之后的字符我们将其存储到urlPath[]当中

//存放网址
char urlAddr[256];
//存放网址后面的路径
char urlPath[256];
//解析网址
void analysisAddr(char* str)
{
	//每次解析之前先把数组清空
	memset(urlAddr,0,256);
	memset(urlPath,0, 256);
	//找str字符串当中的 "http://" 如果找到则输出"http://"地址给了*p
	char* p = strstr(str, "http://");
	if (p == NULL)
	{
		return;
	}
	p += 7;
	//scanf 从cmd输入  sscanf 从第一个参数输入
	sscanf(p, "%[^/]%s", urlAddr,urlPath);

	printf("网站:%s\n",urlAddr);
	printf("网站后面:%s\n", urlPath);

}

strstr(str,"http://");的含义在于,先找到str字符串当中"http://"的位置

如果str字符串当中不存在"http://"字符 则返回

否则+7,因为"http://"是7个字符

sscanf从p当前的第一个参数输入,urlAddr字符串的内容一直从p的开端到"/"字符

urlPath字符串的内容是从/之后

然后将两个字符串打印在窗口上.

2.连接服务器->发请求

void connectAddr(char* urlAddr) 
{
	//设置网络协议版本
	//选中按下f12可以看这个函数的内容
	WSADATA wsaData;
	WSAStartup(MAKEWORD(2,2),&wsaData);

	//创建socket
	s_socket = socket(AF_INET, SOCK_STREAM, NULL);

	//绑定
	SOCKADDR_IN addr = { 0 };
	addr.sin_family = AF_INET;

	int r = bind(s_socket, (sockaddr*)&addr, sizeof addr);
	if (r == -1)
	{
		printf("绑定失败!\n");
		return;
	}
	printf("绑定成功!\n");

	//获取主机的IP地址
	//从字符串变成一个IP地址

	struct hostent* p = gethostbyname(urlAddr);

	if (NULL == p)
	{
		printf("获取主机地址失败!\n");
		return;
	}
	printf("获取主机地址成功!\n");
	//把服务器的协议地址zu设置好
	memcpy(&addr.sin_addr, p->h_addr, 4);
	addr.sin_port = htons(80);

	//连接主机 
	r = connect(s_socket,(sockaddr*)&addr, sizeof addr);
	if (-1 == r)
	{
		printf("连接服务器失败!\n");
	}
	printf("连接服务器成功!\n");
	//发请求
	string reqInfo = "GET " + (string)urlPath + "HTTP/1.1\r\nhost:"+
		(string)urlAddr + "\r\nConnection:Close\r\n\r\n";
	r = send(s_socket, reqInfo.c_str(), reqInfo.size(), NULL);
	if (r <= 0)
	{
		printf("发送失败!\n");
		return;
	}
	printf("发送请求到服务器成功!\n");
}

3.接收源代码并存储起来

//接收源代码并存储起
void getHtml()
{
	string allHtml;//存放网页源代码的字符串
	int r;
	char buff[1024];
	while (1)
	{
		//从服务器接收数据并放到buff里
		r = recv(s_socket, buff, 1023, NULL);
		if (r > 0)
		{
			buff[r] = 0;//添加结束符号
			allHtml += buff;
		}
		else//没有接到
		{
			break;
		}
	}
	printf("------------------我们获得的网页源代码如下--------------------");
	cout << allHtml << endl;

}

 可以将上面三个函数封装在一个函数当中

//爬
void snapJpg(char* begAddr)\
{
	//解析网址 -> http:// -> pic.yesky.com 网络的IP地址别名  网站的地址和二级地址<二级地址也就是路径>
	analysisAddr(begAddr);

	//连接服务器
	//发请求
	connectAddr(urlAddr);

	//接收源代码并存储起
	getHtml();

}

 主函数:

int main()
{
	char buff[256] = { 0 };//安放网页链接
	printf("请输入一个网页链接:");
	scanf("%s",buff);

	snapJpg(buff);
	while (1);
	return 0;
}

 总代码:


#include<graphics.h>
#include<cstdio>
#include<stdio.h>
#include<cstring>
#include<stdlib.h>


#include<winsock2.h>
#pragma comment(lib,"ws2_32.lib")
#include<windows.h>

#include<iostream>
#include<string.h>
using namespace std;

#pragma warning(disable:4996)//忽略4996错误提示

//服务器套接字
SOCKET s_socket;
//存放网址
char urlAddr[256];
//存放网址后面的路径
char urlPath[256];

//连接服务器
//发请求
void connectAddr(char* urlAddr);

//接收源代码并存储起
void getHtml();


//解析网址
void analysisAddr(char*str);
//封装一个爬图片的函数
void snapJpg(char* begAddr);

int main()
{
	char buff[256] = { 0 };//安放网页链接
	printf("请输入一个网页链接:");
	scanf("%s",buff);

	snapJpg(buff);
	while (1);
	return 0;
}
//爬图片
void snapJpg(char* begAddr)\
{
	//解析网址 -> http:// -> pic.yesky.com 网络的IP地址别名  网站的地址和二级地址<二级地址也就是路径>
	analysisAddr(begAddr);

	//连接服务器
	//发请求
	connectAddr(urlAddr);

	//接收源代码并存储起
	getHtml();


}
//解析网址
void analysisAddr(char* str)
{
	//每次解析之前先把数组清空
	memset(urlAddr,0,256);
	memset(urlPath,0, 256);
	//找str字符串当中的 "http://" 如果找到则输出"http://"地址给了*p
	char* p = strstr(str, "http://");
	if (p == NULL)
	{
		return;
	}
	p += 7;
	//scanf 从cmd输入  sscanf 从第一个参数输入
	sscanf(p, "%[^/]%s", urlAddr,urlPath);

	printf("网站:%s\n",urlAddr);
	printf("网站后面:%s\n", urlPath);

}

//连接服务器
void connectAddr(char* urlAddr) 
{
	//设置网络协议版本
	//选中按下f12可以看这个函数的内容
	WSADATA wsaData;
	WSAStartup(MAKEWORD(2,2),&wsaData);

	//创建socket
	s_socket = socket(AF_INET, SOCK_STREAM, NULL);

	//绑定
	SOCKADDR_IN addr = { 0 };
	addr.sin_family = AF_INET;

	int r = bind(s_socket, (sockaddr*)&addr, sizeof addr);
	if (r == -1)
	{
		printf("绑定失败!\n");
		return;
	}
	printf("绑定成功!\n");

	//获取主机的IP地址
	//从字符串变成一个IP地址

	struct hostent* p = gethostbyname(urlAddr);

	if (NULL == p)
	{
		printf("获取主机地址失败!\n");
		return;
	}
	printf("获取主机地址成功!\n");
	//把服务器的协议地址zu设置好
	memcpy(&addr.sin_addr, p->h_addr, 4);
	addr.sin_port = htons(80);

	//连接主机 
	r = connect(s_socket,(sockaddr*)&addr, sizeof addr);
	if (-1 == r)
	{
		printf("连接服务器失败!\n");
	}
	printf("连接服务器成功!\n");
	//发请求
	string reqInfo = "GET " + (string)urlPath + "HTTP/1.1\r\nhost:"+
		(string)urlAddr + "\r\nConnection:Close\r\n\r\n";
	r = send(s_socket, reqInfo.c_str(), reqInfo.size(), NULL);
	if (r <= 0)
	{
		printf("发送失败!\n");
		return;
	}
	printf("发送请求到服务器成功!\n");
}


//接收源代码并存储起
void getHtml()
{
	string allHtml;//存放网页源代码的字符串
	int r;
	char buff[1024];
	while (1)
	{
		//从服务器接收数据并放到buff里
		r = recv(s_socket, buff, 1023, NULL);
		if (r > 0)
		{
			buff[r] = 0;//添加结束符号
			allHtml += buff;
		}
		else//没有接到
		{
			break;
		}
	}
	printf("------------------我们获得的网页源代码如下--------------------");
	cout << allHtml << endl;

}

爬虫 :
限制:http网页服务器
主要知识点:http协议  广度优先遍历算法   stl之map,vector,queue    正则表达式  文件操作
思路:  http://.....进入网站页面
获取这个网页的源代码
 

注意:
搜索http://pic.yesky.com/     会导致403 Forbidden
403 Forbidden错误一般在爬虫采集数据时出现的频率比较多,在爬虫使用代理IP的时候因为不停地访问服务器终端,频发请求时,服务器终端压力过大,触发了反爬虫机制,导致服务器会拒绝这个IP的访问请求,这个时候如果不切换掉被禁用的IP地址,肯定会影响正常的数据采集效率,所以就需要设置时间来定时切换IP地址。IP代理最核心的功能,就是可以更换各个城市不同的IP地址,而且可以隐藏本地的真实IP地址。

分析爬虫全代码:

引用博客:

C/C++实现最简单的爬虫_Mason_Zhao的博客-CSDN博客_c++实现爬虫

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 要在VS2017中使用C#编写一个爬虫源代码下载视频,可以按照以下步骤进行: 1. 首先,下载并安装Visual Studio 2017,并确保安装了C#开发环境。 2. 创建一个新的C#控制台应用程序项目。在解决方案资源管理器中,右键单击项目,选择“添加”>“引用”,并添加System.Net和System.IO命名空间,这些命名空间包含了需要的类。 3. 在Main方法中,使用HttpWebRequest类创建一个HTTP请求对象,并设置请求的URL。可以使用GET或POST方法来请求页面。 4. 发送请求并获取响应。使用GetResponse方法获取HttpWebResponse对象,并通过GetResponseStream方法获取响应流。 5. 将响应流保存为视频文件。使用FileStream类创建一个文件流对象,并将响应流写入文件。可以使用BinaryWriter类将响应流写入文件流。 6. 关闭响应流和文件流,并释放资源。 下面是一个简单的示例代码: ```csharp using System; using System.Net; using System.IO; class Program { static void Main(string[] args) { string url = "视频URL"; string fileName = "保存的文件名"; try { HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url); request.Method = "GET"; HttpWebResponse response = (HttpWebResponse)request.GetResponse(); using (Stream responseStream = response.GetResponseStream()) { using (FileStream fileStream = new FileStream(fileName, FileMode.Create)) { using (BinaryWriter writer = new BinaryWriter(fileStream)) { byte[] buffer = new byte[4096]; int bytesRead; while ((bytesRead = responseStream.Read(buffer, 0, buffer.Length)) > 0) { writer.Write(buffer, 0, bytesRead); } } } } Console.WriteLine("视频下载成功!"); } catch (Exception ex) { Console.WriteLine("视频下载失败:" + ex.Message); } Console.ReadLine(); } } ``` 在此示例代码中,将视频URL替换为实际的视频URL,并将保存的文件名替换为实际的文件名。运行这段代码后,它将从给定的URL下载视频并保存到指定文件名的本地计算机上。 ### 回答2: VS2017是一个非常强大的集成开发环境,它可以用来编写各种编程语言的代码,包括C语言。在VS2017中编写爬虫源代码下载视频的过程大致可以分为以下几个步骤: 1. 确定下载视频的目标网站和视频链接。首先确定你想要下载视频的具体网站和视频链接,这个可以通过查看网页源代码或者通过浏览器的开发者工具来获取。 2. 创建C语言项目。在VS2017中,可以选择创建一个C语言控制台应用程序项目。在项目中创建一个新的C源文件,例如“main.c”。 3. 导入相应的头文件。在编写爬虫源代码时,一般需要使用一些网络相关的库和函数。在C语言中,可以使用标准库中的<curl.h>头文件来处理HTTP请求。 4. 编写爬虫源代码。通过使用curl库提供的函数,可以发送HTTP请求获取目标网页源代码。根据目标网站的结构,可以从源代码中提取出视频的下载链接。 5. 下载视频文件。在获取到视频的下载链接之后,可以使用curl库的相关函数发送HTTP请求,下载视频文件到本地。 6. 完善错误处理和异常处理。在编写爬虫源代码的过程中,需要注意对各种可能出现的错误进行适当的处理,以保证程序的稳定性和健壮性。 以上就是使用VS2017编写爬虫源代码下载视频的大致步骤。需要注意的是,在编写爬虫程序时,应该遵守网站的相关规定和法律法规,确保进行合法、合规的操作。此外,爬虫程序可能会对目标网站服务器造成一定压力,因此在实际操作中应该合理控制爬虫程序的并发度和请求频率,以避免给网站和自己带来不必要的麻烦。 ### 回答3: 要使用VS2017和C语言编写爬虫程序下载视频,可以按照以下步骤进行: 1. 导入所需的库:首先,在程序中导入所需的库文件,如Windows API相关库和网络相关库。 2. 确定视频下载链接:在运行程序之前,需要确定要下载视频的链接地址。可以通过分析网页源代码,找到包含视频地址的标签或特定标识来获取视频的真实下载链接。 3. 创建HTTP请求:使用网络库中的函数,创建一个HTTP请求以获取视频的下载链接。在请求头中设置必要的参数,如User-Agent、Referer等。 4. 发送HTTP请求并接收响应:发送HTTP请求到服务器,并接收服务器的响应。使用网络库中的函数来实现这个过程,并将响应保存在一个缓冲区中。 5. 处理响应数据:对响应数据进行解析和处理。根据视频链接的类型和服务器的响应格式,可能需要对响应数据进行解码、解压缩、分段处理等操作。 6. 下载视频文件:根据视频链接和服务器响应获取的数据,将视频文件保存到本地磁盘。可以使用文件操作相关的函数来实现将响应数据写入到文件中。 7. 清理:释放相关资源,并关闭网络连接。 需要指出的是,这只是一个简单的框架,具体的代码实现可能需要根据不同的视频下载方案进行调整。此外,爬虫程序在爬取网页数据时需遵守法律法规,尊重网站的服务条款,不要滥用爬虫技术。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值