c语言获取socket的包头,C语言使用socket获取网页内容

本文讨论的是使用C语言使用socket获取网页内容

首先需要添加代码

#pragma comment(lib, "ws2_32.lib")

以下是获取网页内容的函数。函数参数为网页地址,字符串类型,如“www.baidu.com”。获取到的网页内容保存在recieved.txt文件中。

void ReadPage(char* host)

{

WSADATA data;

//winsock版本2.2

int err = WSAStartup(MAKEWORD(2, 2), &data);

if (err)

return ;

//用域名获取对方主机名

struct hostent *h = gethostbyname(host);

if (h == NULL)

return ;

//IPV4

if (h->h_addrtype != AF_INET)

return ;

struct in_addr ina;

//解析IP

memmove(&ina, h->h_addr, 4);

LPSTR ipstr = inet_ntoa(ina);

//Socket封装

struct sockaddr_in si;

si.sin_family = AF_INET;

si.sin_port = htons(80);

si.sin_addr.S_un.S_addr = inet_addr(ipstr);

int sock = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP);

connect(sock, (SOCKADDR*)&si, sizeof(si));

if (sock == -1 || sock == -2)

return ;

//发送请求

char request[1024] = "GET /?st=1 HTTP/1.1\r\nHost:";

strcat(request, host);

strcat(request, "\r\nConnection:Close\r\n\r\n");

int ret = send(sock, request, strlen(request), 0);

//获取网页内容

FILE *f = fopen("recieved.txt", "w");

int isstart = 0;

while (ret > 0)

{

const int bufsize = 1024;

char* buf = (char*)calloc(bufsize, 1);

ret = recv(sock, buf, bufsize - 1, 0);

fprintf(f, "%s", buf);

free(buf);

}

fclose(f);

closesocket(sock);

WSACleanup();

printf("读取网页内容成功,已保存在recieved.txt中");

return ;

}

注:本函数只适用于IPV4的http请求。

保存的txt文件用记事本打开时,请将编码改为utf8,而不是默认的ASCII,否则会出现中文乱码。

调用这个函数的一个例子:

ReadPage("www.baidu.com")

在获取了网页信息后,可以使用C++的Regex进行分析。

文中所涉及的所有代码均在Visual Studio 2015中通过。



  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值