web爬虫的广度优先算法

最新推荐文章于 2022-07-29 16:06:50 发布

cjnetwork

最新推荐文章于 2022-07-29 16:06:50 发布

阅读量534

点赞数

分类专栏： J2EE应用文章标签：算法 Web

J2EE应用专栏收录该内容

19 篇文章 0 订阅

订阅专栏

web爬虫中需要设计一个广度优先的算法，以控制爬虫爬行网址的先后顺序，这里用一个链表实现，用链表是因为链表的插入速度够快。

设计思路：
1、取下一个地址：从链表的头部取出一个，并将头部元素删除
2、加入地址池：将URL地址加入到适当的位置

为了保证加入的时候能够加入到合适的地址，最容易想到的办法就是遍历那个地址池，但遍历的效率确实不高，当地址池中数量增大的时候，消耗在遍历上的cpu资源过多，导致爬行效率降低。还有一种方法就是记录每一个深度的URL地址的最后一个元素在地址池中索引，当加入的时候就不需要遍历地址池，只需通过需要加入的URL地址，找到同级URL地址在地址池中的索引，然后加入到地址池中，加入位置为这个索引的后面一个，并且更新索引表，当然如果没有找到同级别的索引，这依次找上一级的索引，若在回溯的过程中，都没有找到，这可以确定索引为0，即将该URL地址加入到地址池的最前面。

下面是一个索引表内容变化的例子：

[table]
|深度|索引|
|2|5|
|3|6|
[/table]
当加入一个这样的URL地址(new URL(1,"http://www.sina.com.cn"))之后
[table]
|深度|索引|
|1|1|
|2|6|
|3|7|
[/table]
当加入一个这样的URL地址(new URL(2,"http://www.baidu.cn"))之后
[table]
|深度|索引|
|1|1|
|2|7|
|3|8|
[/table]
当加入一个这样的URL地址(new URL(4,"http://tieba.baidu.cn"))之后
[table]
|深度|索引|
|1|1|
|2|7|
|3|8|
|4|9|
[/table]

实现的核心代码(代码不完整，无下载及url地址提取等)
[*]Crawler.java
[code]
import java.util.HashMap;
import java.util.Iterator;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;

public class Crawler {

private List<Url> uncrawedUrl = new LinkedList<Url>();// 待爬行网址集合

private Map<String, Url> urls = new HashMap<String, Url>(10000);// 去重网址集合，防止重复爬

private Map<Integer, Integer> urlsIndexPointor = new HashMap<Integer, Integer>();//索引表

/**
*
* 将URL地址添加到未采集池
*
*
* @param url
* @return
*/
private boolean addUrlToPool(Url url) {
boolean result = false;
try {
if (!urls.containsKey(url.getUrl())) {
int index = 0;//默认为0，当下面的搜索过程没有找到index的时候
for (int i = 0; url.getDepth() - i > 0; i++) {// 从索引表中寻找需要插入的位置
if (urlsIndexPointor.containsKey(url.getDepth() - i)) {
index = urlsIndexPointor.get(url.getDepth() - i) + 1;
break;
}
}

uncrawedUrl.add(index, url);
urlsIndexPointor.put(url.getDepth(), index);
urls.put(url.getUrl(), url);

//更新索引表(这个表的内容不会扩展很大，因此遍历效率可以忽略)
Iterator<Entry<Integer, Integer>> iter = urlsIndexPointor.entrySet().iterator();
while (iter.hasNext()) {
Entry<Integer, Integer> entry = iter.next();
if (entry.getKey() > url.getDepth()) {
entry.setValue(entry.getKey() + 1);
}
}

result = true;
}
} catch (Exception e) {
e.printStackTrace();
}
return result;
}

/**
*
* 从URL池中取出一条未爬去过的地址
*
*
* @return 没有则返回null
*/
private Url getUrlFromPool() {
Url result = null;
if (uncrawedUrl.size() > 0) {
result = uncrawedUrl.get(0);
uncrawedUrl.remove(0);

// 更新索引表，将所有的位置指针向前移动一位
Iterator<Entry<Integer, Integer>> iter = urlsIndexPointor.entrySet().iterator();
while (iter.hasNext()) {
Entry<Integer, Integer> entry = iter.next();
if (entry.getValue() == 0) {
iter.remove();
}
entry.setValue(entry.getValue() - 1);
}

}
return result;
}
}

[/code]

[*]Url.java
[code]
class Url {
private int depth;
private String url;

public int getDepth() {
return depth;
}

public String getUrl() {
return url;
}

public void setDepth(int depth) {
this.depth = depth;
}

public void setUrl(String url) {
this.url = url;
}
}
[/code]

cjnetwork

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
web爬虫的广度优先算法

web爬虫中需要设计一个广度优先的算法，以控制爬虫爬行网址的先后顺序，这里用一个链表实现，用链表是因为链表的插入速度够快。设计思路：1、取下一个地址：从链表的头部取出一个，并将头部元素删除2、加入地址池：将URL地址加入到适当的位置为了保证加入的时候能够加入到合适的地址，最容易想到的办法就是遍历那个地址池，但遍历的效率确实不高，当地址池中数量增大的时候，消耗在遍历上的...
复制链接

扫一扫

专栏目录