解析某个网页中所有的超链接

最新推荐文章于 2023-11-22 19:07:31 发布

VIP文章 gehencai

最新推荐文章于 2023-11-22 19:07:31 发布

阅读量1.7k

点赞数

本文链接：https://blog.csdn.net/gehencai/article/details/17006825

版权

前段时间无聊，写的一个获取网页中所有http超链接的代码（不重复）

网页中的超链接一般都已<href="http://......">的形式出现，本文就是获取那“http://......”部分的数据，并进行去重！思路非常简单：

1.解析网址(如http://www.baidu.com),可以解析出主机名：www.baidu.com，默认端口号80

2.通过DNS解析主机名，得到一个hostent结构

3.构造http请求头，将http请求发送到主机

4.解析返回的数据，去重，写入文件

1、2步骤比较简单，只需要通过gethostbyname()，socket()，connect()这三个函数

3步骤中http请求头的格式如下：

GET /* HTTP/1.0

ACCEPT :*

Accept-Language:*

User-Agent:*

Host:*

Connection:*

其中*为需要填写的东西

4步骤中的去重，没有用什么高端的算法，就是用一个链表来保存不重复的数据！有新数据到来，就与链表中数据逐个比较，如果不重复就插入链表尾部，否则忽略！这种方法去重效率比较低下，可以用分治的方法去重（类似于分治排序的哪种方法）

#include "comm.h"
#include <netdb.h>

//以下这些宏用于构造请求头
#define USERAGENT "Wget/1.10.2"
#define ACCEPT "*/*"
#define ACCEPTLANGUAGE "zh-cn,zh;q=0.5"
#define ACCEPTENCODING "gzip,deflate"
#define ACCEPTCHARSET "gb2312,utf8;q=0.7,*;q=0.7"
#define KEEPALIVE "300"
#define CONNECTION "keep-alive"
#define CONNECTTYPE "application/x-www-form-urlencoded"

//超链接的缓存长度
#define BUF_SIZE 500

//网页中超链接的格式
static char pattern[]="href=\"http\0";

//单链表保存不重复的href
typedef struct strdlink
{
	char buf[BUF_SIZE];
	struct strdlink *next;
}strdlink;

最低0.47元/天解锁文章

gehencai

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
解析某个网页中所有的超链接

前段时间无聊，写的一个获取网页中所有http超链接的代码（不重复）网页中的超链接一般都已的形式出现，本文就是获取那“http://......”部分的数据，并进行去重！思路非常简单：1.解析网址(如http://www.baidu.com),可以解析出主机名：www.baidu.com，默认端口号802.通过DNS解析主机名，得到一个hostent结构3.构造http请求头，将ht
复制链接

扫一扫