爬虫
文章平均质量分 80
fox1987
这个作者很懒,什么都没留下…
展开
-
爬虫那些事儿-- 简介
从事爬虫相关的工作已经两年多了。简要做下总结。爬虫(Crawler),有些也叫蜘蛛(Spider),用来从互联网下载网页。是搜索引擎的重要组成。爬虫是搜索引擎的数据来源,是数据的入口。爬虫的基本思想是认为整个互联网类似于一个交错的蜘蛛网。在互联网中每个网页都可以通过url访问。任何一个网页都会被互联网中的其他一些网页所指向(即其他页面中包含该页面的url链接)。而几乎每个网页都存在一些指向其他原创 2013-08-08 08:32:48 · 923 阅读 · 0 评论 -
爬虫那些事儿--Http返回码
由于爬虫的抓取也是使用http协议交互。因此需要了解Http的各种返回码所代表的意义,才能判断爬虫的执行结果。返回码如下:100 Continue 初始的请求已经接受,客户应当继续发送请求的其余部分。(HTTP 1.1新)101 Switching Protocols 服务器将遵从客户的请求转换到另外一种协议(HTTP 1.1新)200 OK 一切正常,对GET和POST请求的应答原创 2013-08-08 08:32:50 · 6175 阅读 · 0 评论 -
爬虫那些事儿--页面变化检测策略
由于爬虫爬取的数据是为搜索引擎服务的。而搜索引擎是为互联网的数据做整合分类以便用户进行检索查看的。因此需要能感知互联网的数据的变化。即对于爬虫已经爬取的数据还需要定期去重新抓取,以检测页面是否变化。 页面的变化我们将其划分为两类: 一: 页面仍存在,但是页面的内容改变了。我们称之为内容更新。由于搜索引擎是基于爬虫爬取的网页的内容建立索引提供用户检索的。如果在爬虫爬去之后原创 2013-08-08 08:32:55 · 3524 阅读 · 0 评论 -
爬虫那些事儿--站点压力控制相关
经过前面的介绍,我们大致了解了站点压力控制对于爬虫的重要性。但是站点压力控制对于爬虫来说,是一个比较Open的话题。即到目前为止也没有一个很准确的压力控制方法。 主要的问题由于以下几点: 不同站点对于爬虫的压力允许程度不同。 即由于站点的规模不同、站点的服务器配置不同等。不同的站点能承受的压力是不同的。同时不同的站点对于爬虫的友好程度不同。有些站点允许爬虫爬去其数据,而有些站点不希望爬虫原创 2013-08-08 08:33:05 · 1773 阅读 · 0 评论 -
爬虫那些事儿---爬虫选择策略
爬虫选取策略主要解决抓取什么样的url,什么样的url不需要抓取。筛选主要关注的有两点。一是选择优质的url进行抓取。二是避免重复的抓取以节约抓取。下面介绍下相关的策略。 Pagerank Pagerank(http://baike.baidu.com/view/844648.htm?fromId=1518) 是Google的专有算法,是用来衡量特定网页相对于搜索引擎中的其他网页的重要程度。原创 2013-08-08 08:32:53 · 1138 阅读 · 0 评论