爬虫
Wang_AI
这个作者很懒,什么都没留下…
展开
-
网络爬虫(一):抓取网页的含义和URL基本构成
一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如转载 2016-07-12 14:45:54 · 4474 阅读 · 0 评论 -
网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs转载 2016-07-12 16:51:18 · 1078 阅读 · 0 评论 -
网络爬虫(三):异常的处理和HTTP状态码的分类
先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP URLs中产生。 1.URLError通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不转载 2016-07-12 17:32:40 · 1658 阅读 · 0 评论 -
网络爬虫(四):Opener与Handler的介绍和实例应用
在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同转载 2016-07-12 18:38:10 · 3648 阅读 · 0 评论 -
网络爬虫(五):urllib2的使用细节与抓站技巧
前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。1.Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。新建test14来实现一个简单的代理Demo:[python] view转载 2016-07-14 19:53:36 · 676 阅读 · 0 评论 -
网络爬虫(六):Python中的正则表达式教程
接下来准备用糗百做一个爬虫的小例子。但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。以下内容转自CNBLOG:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html整理时转载 2016-07-14 20:41:05 · 889 阅读 · 0 评论 -
Python爬取58足浴上网站信息
Scrapy是用于爬取网站和提取结构化数据的应用程序框架,可用于各种有用的应用程序,如数据挖掘,信息处理或历史归档。虽然Scrapy最初设计用于网络抓取,它也可以用于使用APIs(如 Amazon Associates Web Services)或作为通用Web爬网程序提取数据。原创 2017-02-15 10:15:33 · 826 阅读 · 0 评论