![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python3.0 网络爬虫
文章平均质量分 80
Michael-1895
这个作者很懒,什么都没留下…
展开
-
python 3.0 网络爬虫 2
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python 2.x 中,我们使用urllib2这个组件来抓取网页。到Python 3.0中,urllib2模块已经被分割名为urllib.request和urllib.error的几个转载 2017-01-10 14:31:49 · 543 阅读 · 0 评论 -
python 3.0 网络爬虫 3
推荐一款编辑器:Sublime Text编辑器官网先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP URLs中产生。 1.URLError通常转载 2017-01-11 12:52:02 · 449 阅读 · 0 评论 -
python3.0 网络爬虫 4
在开始后面的内容之前,先来解释一下urllib中的两个方法:info and geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同。转载 2017-01-11 15:53:41 · 480 阅读 · 0 评论 -
python3.0 网络爬虫 7
接下来准备用糗百做一个爬虫的小例子。但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。以下内容转自CNBLOG:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html整理时转载 2017-01-16 22:16:16 · 457 阅读 · 0 评论 -
python3.0 网络爬虫 5
urllib的使用细节1.Proxy 的设置urllib 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。新建test14来实现一个简单的代理Demo:[python] view plain copyimport u转载 2017-01-11 16:26:41 · 1855 阅读 · 0 评论 -
python3.0 网络爬虫 6
# -*- coding: utf-8 -*-from urllib.request import Request,HTTPHandler,HTTPSHandler,urlopen,build_opener,install_opener# from urllib.parse import urlencodeimport stringdef tieba(url,begin,end): fo转载 2017-01-12 16:22:38 · 302 阅读 · 0 评论 -
python 3.0 网络爬虫 1
一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如转载 2017-01-10 14:09:24 · 538 阅读 · 0 评论