网络爬虫基本流程及开源爬虫

最新推荐文章于 2024-03-19 17:46:39 发布

寒-江

最新推荐文章于 2024-03-19 17:46:39 发布

阅读量2.6w

点赞数 5

分类专栏： Thinking in Java

本文链接：https://blog.csdn.net/mack415858775/article/details/51035715

版权

Thinking in Java 专栏收录该内容

29 篇文章 1 订阅

订阅专栏

网络爬虫基本原理(一)

    网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。
一、网络爬虫的基本结构及工作流程
    一个通用的网络爬虫的框架如图所示：
    网络爬虫的基本工作流程如下：
    1.首先选取一部分精心挑选的种子URL；
    2.将这些URL放入待抓取URL队列；
    3.从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。
    4.分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。
二、从爬虫的角度对互联网进行划分
    对应的，可以将互联网的所有页面分为五个部分：
    1.已下载未过期网页
    2.已下载已过期网页：抓取到的网页实际上是互联网内容的一个镜像与备份，互联网是动态变化的，一部分互联网上的内容已经发生了变化，这时，这部分抓取到的网页就已经过期了。
    3.待下载网页：也就是待抓取URL队列中的那些页面
    4.可知网页：还没有抓取下来，也没有在待抓取URL队列中，但是可以通过对已抓取页面或者待抓取URL对应页面进行分析获取到的URL，认为是可知网页。
    5.还有一部分网页，爬虫是无法直接抓取下载的。称为不可知网页。
三、抓取策略
    在爬虫系统中，待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题，因为这涉及到先抓取那个页面，后抓取哪个页面。而决定这些URL排列顺序的方法，叫做抓取策略。下面重点介绍几种常见的抓取策略：
    1.深度优先遍历策略
深度优先遍历策略是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。我们以下面的图为例：
    遍历的路径：A-F-G  E-H-I B C D
    2.宽度优先遍历策略
    宽度优先遍历策略的基本思路是，将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。还是以上面的图为例：
    遍历路径：A-B-C-D-E-F G H I
    3.反向链接数策略
    反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此，很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度，从而决定不同网页的抓取先后顺序。
    在真实的网络环境中，由于广告链接、作弊链接的存在，反向链接数不能完全等他我那个也的重要程度。因此，搜索引擎往往考虑一些可靠的反向链接数。
    4.Partial PageRank策略
    Partial PageRank算法借鉴了PageRank算法的思想：对于已经下载的网页，连同待抓取URL队列中的URL，形成网页集合，计算每个页面的PageRank值，计算完之后，将待抓取URL队列中的URL按照PageRank值的大小排列，并按照该顺序抓取页面。
    如果每次抓取一个页面，就重新计算PageRank值，一种折中方案是：每抓取K个页面后，重新计算一次PageRank值。但是这种情况还会有一个问题：对于已经下载下来的页面中分析出的链接，也就是我们之前提到的未知网页那一部分，暂时是没有PageRank值的。为了解决这个问题，会给这些页面一个临时的PageRank值：将这个网页所有入链传递进来的PageRank值进行汇总，这样就形成了该未知页面的PageRank值，从而参与排序。下面举例说明：
    5.OPIC策略策略
    该算法实际上也是对页面进行一个重要性打分。在算法开始前，给所有页面一个相同的初始现金（cash）。当下载了某个页面P之后，将P的现金分摊给所有从P中分析出的链接，并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。
    6.大站优先策略
    对于待抓取URL队列中的所有网页，根据所属的网站进行分类。对于待下载页面数多的网站，优先下载。这个策略也因此叫做大站优先策略。 
 
补充：
 
    开源爬虫 
  
    DataparkSearch是一个在GNU GPL许可下发布的爬虫搜索引擎。 
  
    GNU Wget是一个在GPL许可下，使用C语言编写的命令行式的爬虫。它主要用于网络服务器和FTP服务器的镜像。 
  
    Heritrix是一个互联网档案馆级的爬虫，设计的目标为对大型网络的大部分内容的定期存档快照，是使用java编写的。 
  
    Ht://Dig在它和索引引擎中包括了一个网页爬虫。 
  
    HTTrack用网络爬虫创建网络站点镜像，以便离线观看。它使用C语言编写，在GPL许可下发行。 
  
    ICDL Crawler是一个用C++编写，跨平台的网络爬虫。它仅仅使用空闲的CPU资源，在ICDL标准上抓取整个站点。 
  
    JSpider是一个在GPL许可下发行的，高度可配置的，可定制的网络爬虫引擎。 
  
    LLarbin由Sebastien Ailleret开发； 
  
    Webtools4larbin由Andreas Beder开发； 
  
    Methabot是一个使用C语言编写的高速优化的，使用命令行方式运行的，在2-clause BSD许可下发布的网页检索器。它的主要的特性是高可配置性，模块化；它检索的目标可以是本地文件系统，HTTP或者FTP。 
  
    Nutch是一个使用java编写，在Apache许可下发行的爬虫。它可以用来连接Lucene的全文检索套件； 
  
    Pavuk是一个在GPL许可下发行的，使用命令行的WEB站点镜像工具，可以选择使用X11的图形界面。与wget和httprack相比，他有一系列先进的特性，如以正则表达式为基础的文件过滤规则和文件创建规则。 
  
    WebVac是斯坦福WebBase项目使用的一个爬虫。 
  
    WebSPHINX(Miller and Bharat, 1998)是一个由java类库构成的，基于文本的搜索引擎。它使用多线程进行网页检索，html解析，拥有一个图形用户界面用来设置开始的种子URL和抽取下载的数据； 
  
    WIRE-网络信息检索环境(Baeza-Yates 和 Castillo, 2002)是一个使用C++编写，在GPL许可下发行的爬虫，内置了几种页面下载安排的策略，还有一个生成报告和统计资料的模块，所以，它主要用于网络特征的描述； 
  
    LWP：RobotUA(Langheinrich,2004)是一个在Perl5许可下发行的，可以优异的完成并行任务的 Perl类库构成的机器人。 
  
    Web Crawler是一个为.net准备的开放源代码的网络检索器（C#编写）。 
  
    Sherlock Holmes收集和检索本地和网络上的文本类数据（文本文件，网页），该项目由捷克门户网站中枢（Czech web portal Centrum）赞助并且主用商用于这里；它同时也使用在。 
  
    YaCy是一个基于P2P网络的免费的分布式搜索引擎（在GPL许可下发行）； 
  
    Ruya是一个在广度优先方面表现优秀，基于等级抓取的开放源代码的网络爬虫。在英语和日语页面的抓取表现良好，它在GPL许可下发行，并且完全使用Python编写。按照robots.txt有一个延时的单网域延时爬虫。 
  
    Universal Information Crawler快速发展的网络爬虫，用于检索存储和分析数据； 
  
    Agent Kernel，当一个爬虫抓取时，用来进行安排，并发和存储的java框架。 
  
    是一个使用C#编写，需要SQL Server 2005支持的，在GPL许可下发行的多功能的开源的机器人。它可以用来下载，检索，存储包括电子邮件地址，文件，超链接，图片和网页在内的各种数据。 
  
    Dine是一个多线程的java的http客户端。它可以在LGPL许可下进行二次开发。 
  
   网络爬虫的组成 
  
   在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页，进行页面的处理，主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉，爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源，一般都采用大型的数据库存储，如Oracle数据库，并对其建立索引。 
  
参考书目：
1.《这就是搜索引擎——核心技术详解》　　张俊林　　电子工业出版社
2.《搜索引擎技术基础》　　　　　　　　　刘奕群等　清华大学出版社
3. 百度百科
 
  author：wawlian
 save me from myself

寒-江

关注

5
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫基本流程及开源爬虫

网络爬虫基本原理(一) 网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。一、网络爬虫的基本结构及工作流程一个通用的网络爬虫的框架如图所示：网络爬虫的基本工作流程如下： 1.首先选取一部分精心挑选的种子URL；
复制链接

扫一扫