通过识别Content-Length和Transfer-Encoding实现C++ socket正确接收HTTP数据

最新推荐文章于 2023-07-19 22:43:20 发布

原创最新推荐文章于 2023-07-19 22:43:20 发布 · 1.3k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#socket #http #网络

C-C++ 同时被 2 个专栏收录

15 篇文章

订阅专栏

网络

3 篇文章

订阅专栏

本文详细探讨了在HTTP协议中如何解决数据包丢失问题，尤其是在recv操作中的挑战。通过分析HTTP响应的不同格式，如Content-Length和Transfer-Encoding:chunked，提出了一种有效的方法来确保数据的完整接收，同时提供了具体的代码实现。

众所周知，HTTP在运输层是TCP协议，所以在socket编程中，一般是初始化socket，解析ip，connect，send，recv的步骤。

send请求头倒是容易，但在recv时就会发生问题。

recv需要传入一个接收大小，但在HTTP协议中，头部并没有包大小，所以这个大小一般作为缓冲区大小使用，例如传入1024 bytes这种。

HTTP丢包的问题

首先我以为通过判断recv返回值，可以得知包是否接收完全，但实践发现，这种方式会产生丢包。例如，包大小实际是2000 B，在第一次recv时，接收到了1024 B，程序继续接收，又接收到100 B，由于100<1024，程序认为已经接收完，就跳出循环了。但实际上还有876 B的数据没来得及进入socket缓冲区，程序就直接返回了。

解决这个问题，非常不优雅的做法就是在recv后加sleep，在网络畅通的情况下，稍微sleep几十毫秒，给数据拷进缓冲区留一点时间，就可以接收完全。但这个方法既不优雅也不可靠。网络拥堵时一样会失效。

实际上，recv的返回值只能说明本次从缓冲区取了多少字节，并不担保包已经结束，也不保证下一个分片什么时候到来。

解决方法

可以注意到HTTP的响应有两种格式，都是带有长度数据的。一种是Content-Length字段，后面直接带的就是正文长度。另一种是Transfer-Encoding: chunked，在这种格式下，正文部分为：

1a2<CRLF>
正文<CRLF>
51b<CRLF>
正文<CRLF>
0<CRLF>
<CRLF>

其中<CRLF>代表\r\n。格式就是一行16进制长度，跟着数据，需要注意的是数据后面这个<CRLF>是不算在长度里的。

由此就可以得出程序逻辑了：先recv数据，在数据里找第一次出现的\r\n\r\n（也就是响应头和正文的分界点），如果没找到就继续recv，找到就进行切分，把响应头和正文都切出来。再解析响应头，区分是Content-Length类型还是Transfer-Encoding类型。

如果是Content-Length类型，就计算上一步切分出的正文长度是否接收完全，没接收完就继续接收剩余数据。因为知道剩余多少字节，所以就不存在recv阻塞的问题了。

如果是Transfer-Encoding类型，就不断切分长度行和正文部分，根据长度行识别分块大小，直到长度行为0，确保最后的\r\n接收完毕，结束读取。

代码

上代码，这是调用部分：

main.cpp ：

#include <string>
#include <iostream>

#include "MyInitSock.h"
#include "MyHTTP.h"

MyInitSock myInitSock;

using namespace std;

int main(int argc, char* argv[])
{
	try
	{
		MyHTTP http;
		string website = "www.163.com";
		string ip = DnsParse(website);

		//连接
		http.Connect(ip, 80);

		//设置请求头
		http.request_header.host = website;
		http.request_header.url = "/";
		http.request_header.user_agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36";
		
		//发送
		http.SendGet();

		//接收
		http.RecvHTTP(10240);

		//http.content = MyBase64::Unicode2GBK(MyBase64::UTF8toUnicode(http.content));

		//显示结果
		cout << http.response.raw_response_header;
		cout << http.response.content;
	}
	catch (runtime_error e)
	{
		cout << e.what();
	}
	catch (invalid_argument e)
	{
		cout << e.what();
	}

	system("pause");

	return 0;
}

MyInitSock代码就不上了，内容就是初始化socket。

MyHTTP.h ：

#pragma once
#include "MySocket.h"

#include <unordered_map>

class MyHTTP :
	public MySocket
{
public:
	MyHTTP() :MySocket() {}

	//请求头
	struct RequestHeader
	{
		std::string host;
		std::string url;
		std::string user_agent;
	};
	RequestHeader request_header;

	//响应数据
	struct Response
	{
		std::string version, state_code, phrase;//版本 状态码 短语
		std::unordered_map<std::string, std::string> header;//响应头
		std::string raw_response_header;//响应头原始数据
		std::string content;//正文
	};
	Response response;

	//发送请求头
	void SendGet();

	//接收响应头
	void RecvHTTP(int bufsize = 1024, int flags = 0) throw(std::runtime_error,std::invalid_argument);
};

MySocket的代码就不贴了，内容就是对socket中几个函数的简单封装，gethostname，connect这几个。

MyHTTP.cpp :

#include "MyHTTP.h"

#ifdef _DEBUG
#include <iostream>
#endif

using namespace std;

void MyHTTP::RecvHTTP(int bufsize, int flags) throw(std::runtime_error)
{
	if (bufsize <= 0)
		throw runtime_error("bufsize<=0");

	char* buf = new(nothrow) char[bufsize + 1];
	if (buf == nullptr)
		throw runtime_error("memory is not enough.");

	unique_ptr<char> up_buf(buf);

	string& raw_head = response.raw_response_header;
	string& content = response.content;
	auto dic = response.header;

	raw_head.clear();
	content.clear();
	while (1)
	{
		int rs = recv(m_socket, buf, bufsize, flags);

		if (rs <= 0)
			throw runtime_error("Recieve error. Error code:" + to_string(WSAGetLastError()));

		buf[rs] = 0;
		raw_head += buf;

		//以两组CRLF切分请求头和内容
		auto pos = raw_head.find("\r\n\r\n");
		if (pos != string::npos)
		{
			content += raw_head.substr(pos + 4);//从CRLF后截取
			raw_head.erase(raw_head.begin() + pos + 2, raw_head.end());//带上1组CRLF截取
			break;
		}
	}

	//识别第一行
	//格式：版本 状态码 短语
	size_t start = 0;
	auto pos = raw_head.find("\r\n", start);
	if (pos != string::npos)
	{
		stringstream ss(raw_head.substr(start, pos - start));
		ss >> response.version >> response.state_code >> response.phrase;
		start = pos + 2;
	}
	else
		throw runtime_error("Can not parse the first line of request head:" + raw_head.substr(start, pos - start));

	//解析请求头
	dic.clear();
	while (1)
	{
		auto pos = raw_head.find("\r\n", start);

		//以CRLF切分
		if (pos != string::npos)
		{
			string line = raw_head.substr(start, pos - start);//得到1行

			//切分出key和value
			auto pos_space = line.find(": ");
			if (pos_space != string::npos)
			{
				string key = line.substr(0, pos_space);
				string value = line.substr(pos_space + 2);
				dic[key] = value;
			}
			else
			{
				throw runtime_error("Can not parse the line:" + line);
			}

			start = pos + 2;//设置起始点
		}
		else
		{
			break;
		}
	}

	//接收正文
	const char sz_content_length[] = "Content-Length";
	auto it_content_length = dic.find(sz_content_length);
	if (it_content_length != dic.end())
	{
		//length模式
		int content_length = stoi(dic[sz_content_length]);

		int remain = content_length - content.length();
		if (remain < 0)//实际大小>标记大小
			throw runtime_error("Field Content-Length is less than real content length.");

		//接收剩余部分
		while (remain)
		{
			int rs = recv(m_socket, buf, bufsize, flags);
			if (rs <= 0)//若接收数据小于标记值，此处rs=-1
				throw runtime_error("Recieve error. Error code:" + to_string(WSAGetLastError()));

			buf[rs] = 0;
			content += buf;
			remain -= rs;
		}
	}
	else
	{
		//chunked模式
		const char sz_transfer_encoding[] = "Transfer-Encoding";
		auto it_transfer_encoding = dic.find(sz_transfer_encoding);
		if (it_transfer_encoding != dic.end() && dic[sz_transfer_encoding] == "chunked")
		{
			string temp = content;
			content.clear();

			int state = 0;
			while (1)
			{
				auto pos = temp.find("\r\n");
				if (pos != string::npos)
				{
					//此处保证 temp 以chunked大小开始

					string s_len = temp.substr(0, pos);//得到大小
					cout << s_len << endl;
					int len = stoi(s_len,nullptr,16);
					temp = temp.substr(pos + 2);//截掉大小，content现在是纯内容

					int remain = len - temp.length();
					if (remain <= -2)//缓冲数据超出大小截取点，直接进行截取
					{
						//第一处正式读取
						content+=temp.substr(0, len);
						temp=temp.substr(len+2);//越过结尾的\r\n
					}
					else
					{
						//接收不足部分
						while (1)
						{
							int rs = recv(m_socket, buf, bufsize, flags);
							if (rs <= 0)
								throw runtime_error("Recieve error. Error code:" + to_string(WSAGetLastError()));

							buf[rs] = 0;
							temp += buf;
							remain -= rs;

							if (remain <= -2)//[len长度的chunk]后会额外跟一组\r\n，要越过\r\n需要至少多接收2B
							{
								//第二处正式读取
								content += temp.substr(0, len);
								temp = temp.substr(len + 2);//越过结尾的\r\n
								break;
							}
						}
					}

					//接收完本分块
					if (len == 0)//最后一个chunk以0\r\n\r\n结尾
					{
						//以下两行仅用于测试结尾分块是否逻辑正确
						//正确的话此处socket缓冲区应无数据，recv应始终阻塞
						//int rs = recv(m_socket, buf, bufsize, flags);
						//if (rs <= 0)
						//	throw runtime_error("Recieve error. Error code:" + to_string(WSAGetLastError()));
						break;
					}
				}
				else
				{
					int rs = recv(m_socket, buf, bufsize, flags);
					if (rs <= 0)
						throw runtime_error("Recieve error. Error code:" + to_string(WSAGetLastError()));

					buf[rs] = 0;
					temp += buf;
				}
			}
		}

	}
}

void MyHTTP::SendGet()
{
	if (request_header.url.empty())
		request_header.url = "/";
	string header = "GET " + request_header.url + " HTTP/1.1\r\n"
		"Host: " + request_header.host + "\r\n"
		"user-agent: " + request_header.user_agent + "\r\n"
		"\r\n";
	Send(header);
}