网络爬虫
文章平均质量分 81
dapeng0802
这个作者很懒,什么都没留下…
展开
-
网络爬虫(一):抓取网页的含义和URL基本构成
一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么转载 2015-05-19 13:09:58 · 1598 阅读 · 0 评论 -
网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlo转载 2015-05-19 20:28:54 · 553 阅读 · 0 评论 -
网络爬虫(三):异常的处理和HTTP状态码的分类
先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生URLError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是URLError的子类,通常在特定HTTP URLs中产生。 1.URLError 通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不转载 2015-05-25 21:25:41 · 566 阅读 · 0 评论