![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
啊啊啊西吧
写点什么呢
展开
-
简单Python3爬虫程序(3)进阶:登录、解压缩、cookies
import gzipimport reimport http.cookiejarimport urllib.requestimport urllib.parsedef ungzip(data): try: # 尝试解压 print('正在解压.....') data = gzip.decompress(data)原创 2016-04-07 21:30:09 · 3475 阅读 · 1 评论 -
简单Python3爬虫程序(4)融合1,2:不知疲倦的爬虫
import reimport urllib.requestimport urllibfrom collections import dequeimport crawler2queue = deque()visited = set()url = 'http://www.baidu.com' oper = crawler2.makeMyOpener()queue.append(u原创 2016-04-11 16:34:02 · 904 阅读 · 0 评论 -
简单Python3爬虫程序(5)进阶:知乎网的登录与用户相关信息爬取
下面是在Python3上的代码,这次觉得麻烦就没有分成两个模块了,本来想爬的是每个用户的主页,但是正则没有写好,所以就爬取了所有与用户相关的信息:import gzipimport refrom collections import dequeimport http.cookiejarimport urllib.requestimport urllib.parsequeue = d原创 2016-04-12 09:59:53 · 3185 阅读 · 1 评论 -
简单Python3爬虫程序(2)进阶:伪装浏览器、超时功能、保存数据
import urllib.requestimport http.cookiejar# head: dict of headerdef makeMyOpener(head = { 'Connection': 'Keep-Alive', 'Accept': 'text/html, application/xhtml+xml, */*', 'Accept-Languag原创 2016-04-07 20:35:01 · 3212 阅读 · 0 评论 -
Python常用的爬虫技巧
1、基本抓取网页get方法import urllib2url = "http://www.baidu.com"response = urllib2.urlopen(url)print response.read()post方法import urllibimport urllib2url = "http://abcde.com"form = {'name':'转载 2016-04-11 19:22:31 · 860 阅读 · 0 评论 -
详解:Python2中的urllib、urllib2与Python3中的urllib以及第三方模块requests
先说说Python2中的url与urllib2(参考此处):urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下:1、urllib2可以接受一个Request类的实例来设置URL请求的headers,例如: req = urllib2.Request( url=url, data=post原创 2016-04-14 10:30:07 · 85862 阅读 · 7 评论