Linux下C抓取网页

2 篇文章 0 订阅

一直想做个爬虫,却不知道怎么开始,在网上找了个C下载网页的程序,保存下,下次可以直接从这看。

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <netdb.h>
#include <unistd.h>
char* host = "www.hao123.com";
int port = 80;
int main(void)
{
 char buffer[512];
 int isock;
 struct sockaddr_in pin;
 struct hostent * remoteHost;
 char message[512];
 int done = 0;
 int chars = 0;
 int l = 0;
 if( (remoteHost = gethostbyname(host)) == 0 )
 {
  printf("Error resolving host\n");
  exit(1);
 }
 bzero(message,sizeof(message));
 bzero(&pin,sizeof(pin));
 pin.sin_family = AF_INET;
 pin.sin_port = htons(port);
 pin.sin_addr.s_addr = ( (struct in_addr *)(remoteHost->h_addr) )->s_addr;
 
 if( (isock = socket(AF_INET, SOCK_STREAM, 0)) == -1)
 {
  printf("Error opening socket!\n");
  exit(1);
 }
 sprintf(message, "GET / HTTP/1.1\r\n");
 strcat(message, "Host:www.hao123.com\r\n");
 strcat(message, "Accept: */*\r\n");
 strcat(message, "User-Agent: Mozilla/4.0(compatible)\r\n");
 strcat(message, "connection:Keep-Alive\r\n");
 strcat(message, "\r\n\r\n");
 printf("%s",message);
 if( connect(isock, (const sockaddr*) &pin, sizeof(pin)) == -1 )
 {
  printf("Error connecting to socket\n");
  exit(1);
 }
 if( send(isock, message, strlen(message), 0) == -1)
 {
  printf("Error in send\n");
  exit(1);
 }
 
 struct timeval timeout = {1,0};  //设置超时时间1秒,0代表秒后面的微秒数,左边这个就是1秒0微秒
    
 //设置接收超时
 setsockopt(isock, SOL_SOCKET, SO_RCVTIMEO, (char *)&timeout, sizeof(struct timeval));

 while(done == 0)
 {
  l = recv(isock, buffer, 1, 0);
  if( l < 0 )
   done = 1;
  switch(*buffer)
  {
   case '\r':
    break;
   case '\n':
    if(chars == 0)
     done = 1;
    chars = 0;
    break;
   default:
    chars++;
    break;
  }
   printf("%c",*buffer);
 }
 do
 {
  l = recv(isock, buffer, sizeof(buffer) - 1, 0);
  if( l < 0 )
   break;
  *(buffer + l) = 0;
  fputs(buffer, stdout);
 }while( l > 0 );
 close(isock);
 return 0;
} 


  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值