前段时间无聊,写的一个获取网页中所有http超链接的代码(不重复)
网页中的超链接一般都已<href="http://......">的形式出现,本文就是获取那“http://......”部分的数据,并进行去重!思路非常简单:
1.解析网址(如http://www.baidu.com),可以解析出主机名:www.baidu.com,默认端口号80
2.通过DNS解析主机名,得到一个hostent结构
3.构造http请求头,将http请求发送到主机
4.解析返回的数据,去重,写入文件
1、2步骤比较简单,只需要通过gethostbyname(),socket(),connect()这三个函数
3步骤中http请求头的格式如下:
GET /* HTTP/1.0
ACCEPT :*
Accept-Language:*
User-Agent:*
Host:*
Connection:*
其中*为需要填写的东西
4步骤中的去重,没有用什么高端的算法,就是用一个链表来保存不重复的数据!有新数据到来,就与链表中数据逐个比较,如果不重复就插入链表尾部,否则忽略!这种方法去重效率比较低下,可以用分治的方法去重(类似于分治排序的哪种方法)
#include "comm.h"
#include <netdb.h>
//以下这些宏用于构造请求头
#define USERAGENT "Wget/1.10.2"
#define ACCEPT "*/*"
#define ACCEPTLANGUAGE "zh-cn,zh;q=0.5"
#define ACCEPTENCODING "gzip,deflate"
#define ACCEPTCHARSET "gb2312,utf8;q=0.7,*;q=0.7"
#define KEEPALIVE "300"
#define CONNECTION "keep-alive"
#define CONNECTTYPE "application/x-www-form-urlencoded"
//超链接的缓存长度
#define BUF_SIZE 500
//网页中超链接的格式
static char pattern[]="href=\"http\0";
//单链表保存不重复的href
typedef struct strdlink
{
char buf[BUF_SIZE];
struct strdlink *next;
}strdlink;