爬虫的基本原理及其架构

最新推荐文章于 2024-06-23 17:39:42 发布

无声无梦

最新推荐文章于 2024-06-23 17:39:42 发布

阅读量1.7k

点赞数

分类专栏： Java

本文链接：https://blog.csdn.net/qq_44879516/article/details/103083130

版权

1.总述

通常，访问一个网页，需要一个初始URL,然后通过这个页面的超链接才能跳转到其他页面。同理，一个爬虫通过初始URL列表（种子链接）访问到初始网页，并提取其中的URL添加到工作队列，判断该工作队列的URL是否访问过页面；是，从工作队列中移除并添加到以遍历表；否，放进工作队列，继续访问页面，流程图如下
在这里插入图片描述
以采取博客园文章标题为例

public class NewBio {
    LinkedBlockingQueue<String> workList;  //工作队列
    HashSet<String> visited;  //已遍历URL

    public NewBio() {
        this.workList = new LinkedBlockingQueue<>();
        this.visited = new HashSet<>();
    }

    public void run() {
        while (workList.size() > 0) {  //工作队列不为空
            String strUrl = workList.iterator().next();
            workList = parseLink(strUrl);
            workList.remove(strUrl);
            vi

最低0.47元/天解锁文章

无声无梦

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫的基本原理及其架构

目录总述网络爬虫的遍历策略架构1.总述通常，访问一个网页，需要一个初始URL,然后通过这个页面的超链接才能跳转到其他页面。同理，一个爬虫通过初始URL列表（种子链接）访问到初始网页，并提取其中的URL添加到工作队列，判断该工作队列的URL是否访问过页面；是，从工作队列中移除并添加到以遍历表；否，放进工作队列，继续访问页面，流程图如下以爬取博客园文章标题为例2.网络爬虫的遍历策略...
复制链接

扫一扫