最近用C++写爬虫,发现很不对劲。。。因为大部分网站都换成了https,每次获得的响应都是302。。
提示重定向到他们的https站点上去,这太伤人心了,搞了半天,居然访问不了。
当然不能这么放弃了,于是各种搜,终于明白了,https请求如何发出去和收到响应。
总的来说,需要经过以下步骤:
- 初始化OpenSSL
- 创建CTX上下文环境
- 建立TCP连接
- 创建SSL套接字,将SSL与TCP SOCKET 连接
- 建立SSL连接
- 然后就是通信,blablabla…
- 最后依次关闭连接和回收资源
- 关闭SSL套接字
- 释放SSL套接字
- 释放SSL会话环境
- 关闭TCP连接
- 退出程序(多余的2333)
当然代码如下(在linux环境下,且安装了openssl和libssl):
#include <arpa/inet.h>
#include <netdb.h>
#include <openssl/err.h>
#include <openssl/ssl.h>
#include <sys/socket.h>
#include <unistd.h>
#include <cstring>
#include <fstream>
#include <iostream>
#include <sstream>
#include <string>
using namespace std;
int main() {
int client = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP);
//添加SSL的加密/HASH算法
SSLeay_add_ssl_algorithms();
//客户端,服务端选择SSLv23_server_method()