解析某个网页中所有的超链接

前段时间无聊,写的一个获取网页中所有http超链接的代码(不重复)

网页中的超链接一般都已<href="http://......">的形式出现,本文就是获取那“http://......”部分的数据,并进行去重!思路非常简单:

1.解析网址(如http://www.baidu.com),可以解析出主机名:www.baidu.com,默认端口号80

2.通过DNS解析主机名,得到一个hostent结构

3.构造http请求头,将http请求发送到主机

4.解析返回的数据,去重,写入文件


1、2步骤比较简单,只需要通过gethostbyname(),socket(),connect()这三个函数

3步骤中http请求头的格式如下:

GET /* HTTP/1.0

ACCEPT :*

Accept-Language:*

User-Agent:*

Host:*

Connection:*

其中*为需要填写的东西

4步骤中的去重,没有用什么高端的算法,就是用一个链表来保存不重复的数据!有新数据到来,就与链表中数据逐个比较,如果不重复就插入链表尾部,否则忽略!这种方法去重效率比较低下,可以用分治的方法去重(类似于分治排序的哪种方法)


#include "comm.h"
#include <netdb.h>

//以下这些宏用于构造请求头
#define USERAGENT "Wget/1.10.2"
#define ACCEPT "*/*"
#define ACCEPTLANGUAGE "zh-cn,zh;q=0.5"
#define ACCEPTENCODING "gzip,deflate"
#define ACCEPTCHARSET "gb2312,utf8;q=0.7,*;q=0.7"
#define KEEPALIVE "300"
#define CONNECTION "keep-alive"
#define CONNECTTYPE "application/x-www-form-urlencoded"

//超链接的缓存长度
#define BUF_SIZE 500

//网页中超链接的格式
static char pattern[]="href=\"http\0";

//单链表保存不重复的href
typedef struct strdlink
{
	char buf[BUF_SIZE];
	struct strdlink *next;
}strdlink;

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值