urllib2爬虫

最新推荐文章于 2021-11-25 21:54:43 发布
oliver-11
最新推荐文章于 2021-11-25 21:54:43 发布
阅读量261
点赞数
============================================================    
     Urllib2爬虫   
    ============================================================    
    
    URLlib2基本操作:
       1
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  import urllib2
       |  response = urllib2.open("http://www.baidu.com")   # 使用urllib2.open()方法发送请求,并返回服务器响应的类文件对象
       |  html = response.read()                            # 类文件对象支持文件对象操作方法,如read()方法读取返回文件对象的全部内容并将其转换成字符串格式并赋值给html变量
       |  print html                                        # 打印html变量,即可显示出整个页面
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       2
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  import urllib2
       |  request = urllib2.Request("http://www.baidu.com") # 使用将urllib2.Request()实例化,需要访问的URL地址则作为Request实例的参数
       |  response = urllib2.urlopen(request)               # Request对象作为urlopen()方法的参数,发送给服务器并接收响应的类文件对象
       |  html = response.read()                            # 类文件对象支持文件对象操作方法,如read()方法读取返回文件对象的全部内容并将其转换成字符串格式并赋值给html变量
       |  print html                                        # 打印字符串
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------

       3
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  import urllib2
       |  url = "http://www.baidu.com"
       |  ua_header = {"User-Agent":"Mozzila/5.0(compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
       |  request = urllib2.Reuqest(url,headers=ua_header)      # url连同headers一起构造Request请求,这个请求将附带IE9.0浏览器的User-Agent
       |  response = urllib2.urlopen(request)                   # 向服务器发送这个请求并接收响应的类文件对象
       |  html = response.read()                                # 类文件对象支持文件对象操作方法,如read()方法读取返回文件对象的全部内容并将其转换成字符串格式并赋值给html变量
       |  print html                                            # 打印字符串
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       4
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  import urllib2
       |  url = "http://www.itcast.cn"
       |  ua = {"User-Agent":"Mozzila/5.0(compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
       |  request = urllib2.Request(url,headers = ua)          # IE9.0的User-Agent
       |  request.add_header("Connection":"keep-alive")        # 也可以通过Request.add_header()添加/修改一个特定的header
       |  response = urllib2.urlopen(request)
       |  html = response.read()
       |  print html
       |  print response.code
       |  print request.get_header("Connection")               # 查看响应状态码
       |  print request.get_header(header_name = "Connection") # 也可以通过Request.get_header()查看header信息
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
       5.随机添加/修改User-Agent
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  import urllib2
       |  import random
       |  
       |  url = "http://www.baidu.com"
       |  ua_list = [
       |          "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1",
       |          "Mozilla/5.0 (Windows NT 6.1; rv2.0.1) Gecko/20100101 Firefox/4.0.1",
       |          "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
       |          "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",
       |          "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"
       |              ]
       |  user_agent = random.choice(ua_list)
       |  print user_agent
       |  request = urllib2.Request(url) 
       |  request.add_header("User-Agent",user_agent)    # 也可以通过Request.add_header()添加/修改一个特定的header
       |  response = urllib2.urlopen(request)
       |  html = response.read()
       |  print html
       |  print response.get_header("User-agent")        # 注意:第一个字母大写,后面的全部小写
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
       6.网络编码格式转换 ---- urllib2的post之urllib.urlencode()
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  import urllib2
       |  import urllib            #引入urllib负责url编码处理
       |  
       |  url = "http://www.baidu.com"
       |  word = {"wd":"长城"}
       |  word = urllib.urlencode(word)            # 转换成url编码格式(字符串)
       |  fullurl = url + "?" + word            # url首个分隔符就是?
       |  headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; rv 2.0.1) Gecko/20100101 Firefox/4.0.1"}
       |  request = urllib2.Reuqest(fullurl,headers=headers)
       |  response = urllib2.urlopen(request)
       |  html = response.read()
       |  print html
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
       7.百度贴吧爬取(post请求的应用)
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       | import urllib
       | import urllib2
       | 
       | def load_page(fullurl,filename):
       |     print "正在下载" + filename
       |     headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; rv 2.0.1) Gecko/20100101 Firefox/4.0.1"}
       |     request = urllib.Reuqest(fullurl,headers=headers)
       |     response = urllib2.urlopen(request)
       |     return response.read()
       | 
       | def write_page(html,filename):
       |     print "正在存储" + str(filename)
       |     with open(filename,"w") as f:
       |         f.write(html)
       |     print "-"*30
       | 
       | def tieba_spider(url,beginpage,endpage):
       |     for page in range(beginpage,endpage+1):
       |         filename = "第" + str(page) + "页"
       |         pn = (page-1)*50
       |         fullurl = url + "&pn" + str(pn) 
       |         html = load_page(fullurl,filename)
       |         write_page(html,filename)
       | 
       | if __name__ == "__main__":
       |     kw = raw_input("请输入需要爬取的贴吧名:")
       |     beginpage = raw_input("请输入爬取的起始页：")
       |     endpage = raw_input("请输入爬取的终止页：")
       |     url = "http://tieba.baidu.com/f?"
       |     kw = urllib.urlencode(kw)
       |     url = url + kw
       | 
       |     tieba_spider(url,beginpage,endpage)
       | 
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
        8.有道翻译(post请求的应用)
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  import urllib
       |  import urllib2
       |  
       |  key = raw_input("请输入需要翻译的内容:")
       |  url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule&sessionFrom=null"
       |  headers = {
       |          "Accept" : "application/json, text/javascript, */*; q=0.01",
       |          "X-Requested-With" : "XMLHttpRequest",
       |          "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36",
       |          "Content-Type" : "application/x-www-form-urlencoded; charset=UTF-8",
       |      }
       |  formdata = {
       |          "i" : key,
       |          "from" : "AUTO",
       |          "to" : "AUTO",
       |          "smartresult":"dict",
       |          "client" : "fanyideskweb",
       |          "doctype" : "json",
       |          "version":"2.1",
       |          "keyfrom" : "fanyi.web",
       |          "action" : "FY_BY_ENTER",
       |          "typoResult" : "true"
       |      }
       |  
       |  data = urllib.urlencode(formdata)
       |  request = urllib2.Request(url,data=data,headers=headers)
       |  response = urllib2.urlopen(request)
       |  print response.read()
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
        9 获取Ajax加载内容(post请求的应用) 豆瓣电影top100前20
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  import urllib
       |  import urllib2
       |  
       |  url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action"
       |  headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
       |  formdata = {           # 变动的是这两个参数,从start开始往后显示limit个数据
       |      "start":"0",         # 这两个参数会在发送post请求的时候自定添加到url中
       |      "limit":"20"
       |      }
       |  data = urllib.urlencode(formdata)
       |  request = urllib2.Request(url,data=data,headers=headers)
       |  response = urllib2.urlopen(request)
       |  print response.read()
       |  
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
        10.忽略HTTPS请求SSL证书验证(post请求的应用) 12306忽略https证书验证
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  import urllib2
       |  import ssl                                        # 导入Python SSL处理模块
       |  
       |  context = ssl._create_unverified_context()        # 表示忽略未经核实的SSL证书认证
       |  url = "https://www.12306.cn/mormhweb"
       |  headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
       |  request = urllib2.Request(url,headers=headers)
       |  response = urllib2.urlopen(request,context = context)  # 注意这里使用的是context参数,是没有放在Request中的,而是在urlopen中指明context参数
       |  print response.read()
       |  
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
    URLllib2自定义opener   
       
       
       准备知识:Handler处理器和自定义Opener
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  opener是 urllib2.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。
       |
       |  但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能：
       |
       |      步骤1: 创建处理器对象----使用相关的 Handler处理器 来创建特定功能的处理器对象；
       |
       |      步骤2: 创建opener对象----通过 urllib2.build_opener()方法使用这些处理器对象，创建自定义opener对象；
       |
       |      步骤3: 使用opener对象----调用自定义的opener对象的open()方法发送请求。
       |
       |  根据需要,可以使用urllib2.install_opener()将自定义的opener定义为全局opener，表示如果之后凡是调用urlopen，都将使用这个opener
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
        1.利用HTTPHandler处理器创建支持处理HTTP请求的opener
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  imort urllib2
       |  http_handler = urllib2.HTTPHandler()                      # 第一步:创建处理器对象(这里:创建一个(支持处理HTTP请求)的HTTPHandler处理器对象)
       |  http_opener = urllib2.build_opener(http_handler)          # 第二步:创建opener对象(这里:调用urllib2.build_opener()方法来创建(支持HTTP请求)的opener对象)
       |  http_response = http_opener.open("http://www.baidu.com")  # 第三步:使用opener对象(这里:调用opener对象的open()方法发送request请求)
       |  print http_response.read()                                # 打印服务器响应内容
       |  
       |  这种方式发送请求得到的结果，和使用urllib2.urlopen()发送HTTP请求得到的结果是一样的。
       |  如果在 HTTPHandler()增加 debuglevel=1参数,即(HTTPHandler(debuglevel=1))，还会将DebugLog 打开，
       |  这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调试，有时可以省去抓包的工作。
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
       
       2.利用HTTPShandler处理器创建支持处理HTTPS请求的opener
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  import urllib2
       |  https_handler = urllib2.HTTPSHandler()                                  # 第一步:创建处理器对象(这里:创建一个(支持处理HTTP请求)的HTTPHandler处理器对象)
       |  https_opener = urllib2.build_opener(https_handler)                      # 第二步:创建opener对象(这里:build_opener()方法来创建(支持HTTP请求)的opener对象)
       |  https_response = https_opener.open("https://www.12306.cn/mormhweb/")    # 第三步:使用opener对象(这里:调用opener对象的open()方法发送request请求)
       |  print https_response.read()                                             # 打印服务器响应内容
       |  
       |  这种方式发送请求得到的结果，和使用urllib2.urlopen()发送HTTPS请求得到的结果是一样的。
       |  如果在 HTTPSHandler()增加 debuglevel=1参数,即(HTTPSHandler(debuglevel=1))，还会将DebugLog 打开，
       |  这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调试，有时可以省去抓包的工作。
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
       3.利用ProxyHandler处理器创建支持非私密代理访问的opener
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |  
       |  import urllib2
       |  
       |  have_proxy_handler = urllib2.ProxyHandler({"http":"122.72.18.35:80"}) # 第一步:创建处理器对象(这里:创建一个(支持有代理)和一个(支持无代理)的ProxyHandler处理器对象)
       |  null_proxy_handler = urllib2.ProxyHandler({})
       |  proxy_switch = True                                   # 创建了一个是否使用代理的开关,
       |  if proxy_switch:                                      # 第二步:创建opener对象(这里:调用build_opener()方法来创建opener对象)        
       |      opener = urllib2.build_opener(have_proxy_handler)   # 如果代理开关打开,则创建一个支持有代理的opener对象
       |  else:                        
       |      opener = urllib2.build_opener(null_proxy_handler)   # 如果代理开关关闭,则创建一个支持无代理的opener对象
       |  request = urllib2.Request("http://www.baidu.com")
       |  response = opener.open(request)                       # 第三步:使用opener对象(这里:调用opener对象的open()方法发送request请求)
       |  print response.read()
       |  
       |
       |   附加1:选择随机代理去访问制定网页
       |   -------------------------------------------------------------------------------------------------------------------------------------------------------
       |    #如果代理IP足够多，就可以像随机获取User-Agent一样，随机选择一个代理去访问网站。
       |
       |       #!/usr/bin/env python
       |       #coding:utf-8
       |       
       |       import urllib2
       |       import random    #引入随机模块
       |       
       |       proxy_list = [                                           # 创建一个可供选择的随机代理列表
       |                     {"http":"200.200.200.200:80"},
       |                     {"http":"200.200.200.201:8080"},
       |                     {"http":"200.200.200.202:808"},
       |                     {"http":"200.200.200.203:880"},
       |                     ]
       |       proxy = random.choice(proxy_list)                        # 从列表中随机选择一个代理
       |       proxy_handler = urllib2.ProxyHandler(proxy_list)         # 第一步:创建处理器对象(这里创建一个(支持有代理)的ProxyHandler处理器对象)
       |       proxy_opener = urllib2.build_opener(proxy_handler)       # 第二步:创建opener对象(这里:调用urllib2.build_opener()方法来创建opener对象)
       |       response = proxy_opener.open("http://www.baidu.com")     # 第三步:使用opener对象(这里:调用opener对象的open()方法发送request请求)
       |       print response.read()
       |  
       |  
       |   附加2:采用ProxyHandler处理器创建支持私密代理访问的opener(代码中直接显示用户名和密码)
       |   ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |    #ProxyHandler处理器也能创建支持私密代理的opener
       |    
       |    import urllib2                     # 第一步:创建处理器对象(这里创建一个(支持私密代理验证) 的ProxyHandler处理器)----注意验证用户名\密码\代理IP\端口的写法
       |    authproxy_handler = urllib2.ProxyHandler({"http":"mr_mao_hacker:sffqry9r@61.158.163.130:16816"})        
       |    opener = urllib2.build_opener(authproxy_handler)                                                   # 第二步:创建opener对象
       |    response = opener.open("http://www.baidu.com")                                                     # 第三步:使用opener对象
       |    print response.read()
       |    
       |    
       |   附加3:采用ProxyHandler处理器创建支持私密代理访问的opener(代码中隐藏用户名和密码)
       |   ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |    #将用户名和密码保存为环境变量,通过获取环境变量的方式获得用户名和密码,从而在代码中隐藏用户名和密码
       |
       |    import urllib2
       |    import os
       |    proxyuser = os.environ.get("proxyuser")                                                               # 获取存放在环境变量中的授权代理用户名/密码
       |    proxypasswd = os.environ.get("proxypasswd")            # 第一步:创建处理器对象(这里创建一个(支持私密代理验证)的ProxyHanlder处理器)------采用用户名/密码/代理IP/端口采用拼接的方式
       |    authproxy_handler = urllib2.ProxyHandler({"http":proxyuser+":"+proxypasswd+"@61.158.163.130:16816"})
       |    opener = urllib2.build_opener(authproxy_handler)                                                      # 第二步:创建opener对象(这里:调用urllib2.build_opener()方法来创建opener对象)
       |    request = urllib2.Request("http://www.baidu.com")                                                     # 构建请求
       |    response = opener.open(request)                                                                       # 第三步:使用opener对象(这里:调用opener对象的open()方法发送request请求)
       |    print response.read()
       |     
       |    #错误知晓:如果私密代理用户名或密码错误,会报407错误(HTTP Error 407: Proxy Authentication Required)表示代理没有通过身份验证.
       |    #注意:ProxyHandler()处理器虽然也能够创建支持私密代理的opener对象,但是专业的还是下面的ProxyBasicAuthHandler()处理器(专门进行私密代理授权验证)
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
       4.利用ProxyBasicAuthHandler(代理授权验证)处理器创建支持私密代理访问的opener
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       | 
       |   准备知识:HTTPPasswordMgrWithDefaultRealm()类
       |   ----------------------------------------------------
       |       HTTPPasswordMgrWithDefaultRealm()类将创建一个密码管理对象,用来保存HTTP请求相关的用户名和密码,主要有两个应用场景:
       |       (1).验证代理授权的用户名和密码(ProxyBasicAuthHandler)
       |       (2).验证web客户端的用户名和密码(HTTPBasicAuthHandler)
       | 
       |   代码思路:
       |    (1)使用HTTPPasswordMgrWithDefaultRealm()来保存私密代理的用户名和密码
       |    (2)使用ProxyBasicAuthHandler()来处理代理的身份验证
       |  
       |  import urllib2
       |  user = "mr_mao_hacker"                                        # 设置代理账户/密码/代码IP端口
       |  passwd = "sffqry9r"
       |  proxy_server = "61.158.163.130:16816"
       |  passwdmgr = urllib2.HTTPPasswordMgrWithDefaultRealm()         # 创建一个密码管理器对象,用来保存代理账户/密码/代理IP端口
       |  passwdmgr.add_password(None,proxy_server,user,passwd)         # 将设置好的代理账户/密码/代理IP端口信息保存到这个密码管理器对象中
       |  proxy_auth_handler = urllib2.ProxyBasicAuthHandler(passwdmgr) # 第一步:创建处理器对象(这里创建一个(私密代理验证)的ProxyBasicAuthHanlder处理器)----传入的参数是密码管理器对象
       |  opener = urllib2.build_opener(proxy_auth_handler)             # 第二步:创建opener对象(这里:调用build_opener()方法来创建opener对象)
       |  request = urllib2.Request("http://www.baidu.com")             # 构建请求
       |  response = opener.open(request)                               # 第三步:使用opener对象(这里:调用opener对象的open()方法发送request请求)
       |  print response.read()
       |  
       |  # 也可以采用上述将用户名/密码设置成环境变量的方式,避免直接在代码中出现明显的用户名/密码信息!!
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
       5.利用HTTPBasicAuthHandler(web客户端授权验证)处理器创建访问web页面需要用户身份验证的opener
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |    # 有些web服务器(包括HTTP/FTP等)访问时,需要进行用户身份验证,爬虫直接访问会报HTTP 401错误(HTTP Error 401: Unauthorized)表示访问身份未经授权
       |    # 如果我们有这些web服务器的用户名和密码,就可通过下述方法去访问爬取
       |
       |   代码思路:
       |   ----------------------------------------------------
       |      (1) 使用HTTPPasswordMgrWithDefaultRealm()来保存web客户端的用户名和密码
       |      (2) 使用ProxyBasicAuthHandler()来处理web客户端的身份验证
       |
       |  import urllib2
       |  user = "zhangsan"                                              # 设置代理账户/密码/代码IP端口
       |  passwd = "123456"
       |  web_server = "http://200.200.200.200:80"
       |  passwdmgr = urllib2.HTTPPasswordMgrWithDefaultRealm()       # 创建一个密码管理器对象,用来保存代理账户/密码/代理IP端口
       |  passwdmgr.add_password(None,web_server,user,passwd)         # 将设置好的代理账户/密码/代理IP端口信息保存到这个密码管理器对象中
       |  http_auth_handler = urllib2.HTTPBasicAuthHandler(passwdmgr) # 第一步:创建处理器对象(这里创建一个(web客户端授权验证)的HTTPBasicAuthHandler处理器)----传入的参数是密码管理器对象
       |  opener = urllib2.build_opener(http_auth_handler)            # 第二步:创建opener对象(这里:调用urllib2.build_opener()方法来创建opener对象)
       |  urllib2.install_opener(opener)                              # 如果需要,可以选择通过install_opener()方法将自定义的opener定义为全局的opener
       |  request = urllib2.Request("http://www.baidu.com")           # 创建请求
       |  response = urllib2.urlopen(request)                         # 第三步:使用opener对象(因为自定义opener被定义为全局opener,这里:可使用urllib2.urlopen()方法调用opener对象发送request请求)
       |  print response.read()
       |
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       
       
       6.利用HTTPCookieProcessor处理器创建支持处理cookie的opener
        ----------------------------------------------------------------------------------------------------------------------------------------------------------
       |
       |   预先了解:cookie/cookie原理/cookie格式
       |   ----------------------------------------------------
       |         cookie: 是指某些网站服务器为了辨别用户身份和进行session跟踪,而储存在用户浏览器上的文本文件,cookie可以保持登陆信息到用户下次与服务器的对话.
       |
       |         cookie原理: HTTP是无状态的面向连接的协议,为了保存连接状态,引入了cookie机制,cookie是http消息头部中的一种属性包括:
       |             cookie名字(Name)/值(Value)/过期时间(Expires/Max-Age)/作用路径(Path)/所在域名(Domain)/使用cookie进行安全连接(Secure) (Name和Value是cookie的必要条件)
       |
       |         cookie格式: (cookie由变量名和值组成)-----Set－Cookie: NAME=VALUE；Expires=DATE；Path=PATH；Domain=DOMAIN_NAME；SECURE
       |
       |
       |   预先案例:通过post抓包工具抓取到的有登陆信息的完整cookie信息模拟登陆之前已登录的人人网页
       |    -----------------------------------------------------------------------------------------------------------------------------------------------------------------------
       |   |    cookie在爬虫方面最典型的应用是判定注册用户是否已经登陆网站,用户可能会得到提示,是否在下一次进入此网站时保留用户信息以便简化登陆手续.
       |   |           
       |   |    import urllib2
       |   |        "Host":"www.renren.com",
       |   |      
       |   |    headers    = {                                                                                   # 1. 构建一个已经登录过的用户的headers信息
       |   |        "Connection":"keep-alive",
       |   |        "Upgrade-Insercure-Reuqests":"1",
       |   |        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36",
       |   |        "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
       |   |        "Accept-Language":"zh-CN,zh;q=0.8,en;q=0.6",
       |   |        # Accept-Encoding: gzip, deflate, sdch,                                                    # 便于终端阅读,表示不支持压缩文件
       |   |        "Cookie": " ln_uact=mr_mao_hacker@163.com; id=327550029; xnsid=745033c5; ver=7.0;...... "    
       |   |        }                                                                       # 重点:这个cookie是保存了密码无需重复登录的用户的cookie,这个Cookie里记录了用户名，密码(通常经过RAS加密)
       |   |                   
       |   |    request = urllib2.Request("http://www.renren.com",headers = headers)                           # 2. 通过headers里的报头信息（主要是Cookie信息），构建Request对象
       |   |    response = urllib2.urlopen(request)                             # 3. 直接访问renren主页，服务器会根据headers报头信息（主要是Cookie信息），判断这是一个已经登录的用户，并返回相应的页面
       |   |    print response.read()                                        # 4. 打印响应内容(会看到"人人网-毛兆军")
       |   |           
       |   |    # 这种方式虽然能够获取一个有登录信息的Cookie实现模拟登陆,但是太过复杂,我们需要首先在浏览器登陆账户,并且设置保存密码,并且通过抓包工具才能获得这个cookie,为了不使
       |   |      用这么复杂的方式,于是下面利用cookielib库和HTTPCookieProcessor处理器的简单方法应运而生! 
       |    -----------------------------------------------------------------------------------------------------------------------------------------------------------------------
       |
       |
       |    预先了解:cookielib库
       |   ----------------------------------------------------
       |     cookielib模块的主要对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar
       |       (1)CookieJar(): 整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后cookie也将丢失.用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象.
       |       (2)FileCookieJar(filename,delayload=None,policy=None): 从CookieJar派生而来，用来创建FileCookieJar实例，检索cookie信息并将cookie存储到文件中。filename是存储cookie的文件名,
       |                                                              delayload为True时支持延迟访问访问文件，即只有在需要时才读取文件或在文件中存储数据。
       |       (3)MozillaCookieJar(filename,delayload=None,policy=None): 从FileCookieJar派生而来，创建与Mozilla浏览器 cookies.txt兼容的FileCookieJar实例。
       |       (4)LWPCookieJar(filename,delayload=None,policy=None): 从FileCookieJar派生而来，创建与libwww-perl标准的 Set-Cookie3 文件格式兼容的FileCookieJar实例。
       |             注意:大多数情况下，我们只用CookieJar()，如果需要和本地文件交互，就用 MozillaCookjar() 或 LWPCookieJar()
       |
       |
       |    代码思路:结合cookielib库和HTTPCookieProcessor处理器
       |   ----------------------------------------------------
       |      在python中处理cookie,一般是通过cookielib模块和urllib2.HTTPCookieProcessor()类一起使用.其各自作用如下:
       |            cookielib模块: 提供存储cookie的对象
       |            HTTPCookieProcessor处理器: 用于处理这些cookie对象,并构建handler对象
       |
       |
       |   实操1:获取cookie并保存到内存中---利用CookieJar()对象
       |    -----------------------------------------------------------------------------------------------------------------------------------------------------------------------
       |   |   import urllib2
       |   |   import cookielib
       |   |   cookie_jar = cookielib.CookieJar()                       # 创建一个CookieJar对象实例来保存cookie到内存中
       |   |   cookie_handler = urllib2.HTTPCookieProcessor(cookie_jar) # 第一步:创建处理器对象(这里创建一个(处理cookie)的HTTPCookieProcessor处理器)----传入的参数是CookieJar()对象
       |   |   opener = urllib2.build_opener(cookie_handler)            # 第二步:创建opener对象(这里:调用urllib2.build_opener()方法来创建opener对象)
       |   |   opener.open("http://www.baidu.com")                      # 第三步:使用opener对象(这里:调用opener对象的open()方法发送request请求)     
       |   |   cookie_string = ""
       |   |   for item in cookie_jar:
       |   |      cookie_string = cookie_string + item.name + "=" + item.value + ";"
       |   |   print cookie_string[:-1]                                 # 去掉最后一位分号,这样就按标准格式将保存的cookie打印出来了
       |   |   
       |   |   # 以上方法将Cookie保存到cookiejar对象中，然后打印出了cookie中的值，也就是访问百度首页的Cookie值。
       |   |   
       |    -----------------------------------------------------------------------------------------------------------------------------------------------------------------------
       | 
       | 
       |    实操2:获取cookie并保存到文件中---利用MozillaCookieJar()对象
       |    -----------------------------------------------------------------------------------------------------------------------------------------------------------------------
       |   |   import urllib2
       |   |   import cookielkib
       |   |   filename = "cookie_save.txt"                                   # 本地保存cookie的文件名
       |   |   cookie_save_jar = cookielib.MozillaCookieJar(filename)         # 创建一个MozillaCookieJar对象实例来保存cookie到本地文件中---参数是本地文件名
       |   |   cookie_handler = urllib2.HTTPCookieProcessor(cookie_save_jar)  # 第一步:创建处理器对象(这里创建一个(处理cookie)的HTTPCookieProcessor处理器)----传入的参数是MozillaCookieJar()对象
       |   |   opener = urllib2.build_opener(cookie_handler)                  # 第二步:创建opener对象(这里:调用urllib2.build_opener()方法来创建opener对象)
       |   |   opener.open("http://www.baidu.com")                            # 第三步:使用opener对象(这里:调用opener对象的open()方法发送request请求)
       |   |   cookie_save_jar.save()                                         # 保存cookie到本地文件
       |   |   
       |    -----------------------------------------------------------------------------------------------------------------------------------------------------------------------
       | 
       | 
       |    实操3:从文件中获取cookies，做为请求的一部分去访问---利用MozillaCookieJar()对象
       |    -----------------------------------------------------------------------------------------------------------------------------------------------------------------------        
       |   |   import urllib2
       |   |   import cookielib
       |   |   cookie_load_jar = cookielib.MozillaCookJar()                   # 创建一个MozillaCookieJar对象实例来读取本地文件中
       |   |   cookie_load_jar.load("cookie_save.txt")                        # 利用这个MozillaCookieJar对象实例来读取本地存放cookie的文件--cookie_save.txt
       |   |   cookie_handler = urllib2.HTTPCookieProcessor(cookie_load_jar)  # 第一步:创建处理器对象(这里创建一个(处理cookie)的HTTPCookieProcessor处理器)----传入的参数是MozillaCookieJar()对象
       |   |   opener = urllib2.build_opener(cookie_handler)                  # 第二步:创建opener对象(这里:调用urllib2.build_opener()方法来创建opener对象)
       |   |   response=opener.open("http://www.baidu.com")                   # 第三步:使用opener对象(这里:调用opener对象的open()方法发送request请求)
       |   |   print response.read()
       |   |   
       |    -----------------------------------------------------------------------------------------------------------------------------------------------------------------------
       |
       |
       |    案例:利用cookielib和post模拟登录人人网
       |    -----------------------------------------------------------------------------------------------------------------------------------------------------------------------
       |   |    即:先通过post用户名和密码登陆人人网并同时保存好本次成功登陆的cookie,然后带着这个cookie第二次直接访问好友主页
       |   |          
       |   |   import urllib
       |   |   import urllib2
       |   |   import cookielib
       |   |   cookie_jar =cookielib.CookieJar()                              # 创建一个CookieJar对象实例来保存cookie到内存中
       |   |   cookie_handler = urllib2.HTTPCookieProcessor(cookie_jar)          # 第一步:创建处理器对象(这里创建一个(处理cookie)的HTTPCookieProcessor处理器)----传入的参数是CookieJar()对象
       |   |   opener = urllib2.build_opener(cookie_handler)                  # 第二步:创建opener对象(这里:调用urllib2.build_opener()方法来创建opener对象)
       |   |   opener.addheaders = [("User-Agent","Mozilla/5.0 .....")        # 向headers中添加一个User-Agent信息,addheaders接受一个列表，里面每个元素都是一个headers信息的元祖, opener将附带headers信息
       |   |   post_data = {"email":"583803258@qq.com","password":"123456"}      # 登陆需要的用户名和密码信息
       |   |   post_data = urllib.urlencode(post_data)                        # 将这些登陆需要的信息进行urlencode()转码,转码后才能post
       |   |   url = "http://www.renren.com/PLogin.do"                        # 第一次访问的登陆页面
       |   |   request = urllib2.Request(url,data=post_data)                  # 创建post请求
       |   |   first_response = opener.open(request)                          # 第三步:使用opener对象(这里:调用opener对象的open()方法发送post请求),获取到成功登陆的cookie信息被CookieJar()存放在内存中
       |   |   second_response = opener.open("http://www.renren.com/405858138/profile") # 第二次使用opener去请求好友主页时由HTTPCookieProcessor处理器生成的opener就会附带上之前的cookie信息
       |   |   print second_response.read()                                             # 打印成功访问到好友的主页信息
       |   |  
       |    -----------------------------------------------------------------------------------------------------------------------------------------------------------------------
       |
        --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
          
          
    urllib2的异常处理 -----URLError类/HTTPError类      
          
        --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
       |     当我们使用urlopen/opener.open发送一个请求,如果urlopen/opener.open不能处理这个response就会产生错误,这里主要说的是URLError和HTTPError
       |
       |     URLError类
       |   ----------------------------------------------------
       |        URLError产生的原因主要有:
       |            (1)没有网络连接
       |            (2)服务器连接失败
       |            (3)找不到制定服务器
       |        我们可以采用try except语句来捕获异常,例如下面的例子访问一个不存在的域名([Errno 8] nodename nor servname provided, or not known)错误原因找不到制定服务器
       |                   
       |        import urllib2
       |        request = urllib2.Request("http://www.abcdxdd.com")
       |        try:
       |            urllib2.urlopen(request,timeout=5)
       |        except urllib2.URLError,err:              # 捕获URLlib.URLError时将错误信息保存到err变量并打印err变量值
       |            print err
       |        运行结果:
       |            <urlopen error [Errno 8] nodename nor servname provided, or not known>
       |
       |
       |     HTTPError类
       |   ----------------------------------------------------
       |        HTTPError是URLError的子类,使用urllib2.HTTPError时会返回服务器的状态响应码和错误信息,使用如下:
       |         
       |        import urllib2
       |
       |        request = urllib2.Request("http://blog.baidu.com/itcast")
       |        try:
       |            urllib2.urlopen(request)
       |        except urllib2.HTTPError,err:      # 捕获URLlib.HTTPError时将错误信息保存到err变量并打印状态码和err信息
       |            print err.code
       |            print err
       |        运行结果:
       |            404
       |            HTTP Error 404: Not Found      # 404错误,要么URL不对,要么IP被封
       |            注意: urllib2可以为我们处理重定向的页面（也就是3开头的响应码），100-299范围的号码表示成功，所以我们只能看到400-599的错误号码。
       |
       |
       |     综合编写urllib2异常处理:
       |   ----------------------------------------------------
       |        两种错误都能捕获-----由于HTTPError的父类是URLError，所以父类的异常应当写到子类异常的后面
       |         
       |        import urllib2
       |
       |        request = urllib2.Request("http://blog.baidu.com/itcast")
       |        try:
       |            urllib2.urlopen(request)
       |        except urllib2.HTTPError,err:    #如果首先捕获到HTTPError这个子类异常,则打印出错误状态码
       |            print err.code
       |        except urllib2.URLError.err:    #如果父类URLError捕获到了(HTTPError子类没有捕获到的)异常,则打印出该异常的内容
       |            print err
       |        else:
       |            print "OK"
       |        运行结果:
       |            404
       |        如上形式便可做到-----首先捕获子类的异常，如果子类捕获不到，那么可以捕获父类的异常。
       | 
       | 
        --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

    附录:HTTP响应状态码参考
        --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
       |       1xx:信息
       |
       |       100 Continue
       |       服务器仅接收到部分请求，但是一旦服务器并没有拒绝该请求，客户端应该继续发送其余的请求。
       |       101 Switching Protocols
       |       服务器转换协议：服务器将遵从客户的请求转换到另外一种协议。
       |
       |
       |
       |        2xx:成功
       |
       |        200 OK
       |        请求成功（其后是对GET和POST请求的应答文档）
       |        201 Created
       |        请求被创建完成，同时新的资源被创建。
       |        202 Accepted
       |        供处理的请求已被接受，但是处理未完成。
       |        203 Non-authoritative Information
       |        文档已经正常地返回，但一些应答头可能不正确，因为使用的是文档的拷贝。
       |        204 No Content
       |        没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面，而Servlet可以确定用户文档足够新，这个状态代码是很有用的。
       |        205 Reset Content
       |        没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
       |        206 Partial Content
       |        客户发送了一个带有Range头的GET请求，服务器完成了它。
       |
       |
       |
       |        3xx:重定向
       |
       |        300 Multiple Choices
       |        多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。
       |        301 Moved Permanently
       |        所请求的页面已经转移至新的url。
       |        302 Moved Temporarily
       |        所请求的页面已经临时转移至新的url。
       |        303 See Other
       |        所请求的页面可在别的url下被找到。
       |        304 Not Modified
       |        未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求（一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档）。服务器告诉客户，原来缓冲的文档还可以继续使用。
       |        305 Use Proxy
       |        客户请求的文档应该通过Location头所指明的代理服务器提取。
       |        306 Unused
       |        此代码被用于前一版本。目前已不再使用，但是代码依然被保留。
       |        307 Temporary Redirect
       |        被请求的页面已经临时移至新的url。
       |
       |
       |
       |        4xx:客户端错误
       |
       |        400 Bad Request
       |        服务器未能理解请求。
       |        401 Unauthorized
       |        被请求的页面需要用户名和密码。
       |        401.1
       |        登录失败。
       |        401.2
       |        服务器配置导致登录失败。
       |        401.3
       |        由于 ACL 对资源的限制而未获得授权。
       |        401.4
       |        筛选器授权失败。
       |        401.5
       |        ISAPI/CGI 应用程序授权失败。
       |        401.7
       |        访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。
       |        402 Payment Required
       |        此代码尚无法使用。
       |        403 Forbidden
       |        对被请求页面的访问被禁止。
       |        403.1
       |        执行访问被禁止。
       |        403.2
       |        读访问被禁止。
       |        403.3
       |        写访问被禁止。
       |        403.4
       |        要求 SSL。
       |        403.5
       |        要求 SSL 128。
       |        403.6
       |        IP 地址被拒绝。
       |        403.7
       |        要求客户端证书。
       |        403.8
       |        站点访问被拒绝。
       |        403.9
       |        用户数过多。
       |        403.10
       |        配置无效。
       |        403.11
       |        密码更改。
       |        403.12
       |        拒绝访问映射表。
       |        403.13
       |        客户端证书被吊销。
       |        403.14
       |        拒绝目录列表。
       |        403.15
       |        超出客户端访问许可。
       |        403.16
       |        客户端证书不受信任或无效。
       |        403.17
       |        客户端证书已过期或尚未生效。
       |        403.18
       |        在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
       |        403.19
       |        不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
       |        403.20
       |        Passport 登录失败。这个错误代码为 IIS 6.0 所专用。
       |        404 Not Found
       |        服务器无法找到被请求的页面。
       |        404.0
       |        没有找到文件或目录。
       |        404.1
       |        无法在所请求的端口上访问 Web 站点。
       |        404.2
       |        Web 服务扩展锁定策略阻止本请求。
       |        404.3
       |        MIME 映射策略阻止本请求。
       |        405 Method Not Allowed
       |        请求中指定的方法不被允许。
       |        406 Not Acceptable
       |        服务器生成的响应无法被客户端所接受。
       |        407 Proxy Authentication Required
       |        用户必须首先使用代理服务器进行验证，这样请求才会被处理。
       |        408 Request Timeout
       |        请求超出了服务器的等待时间。
       |        409 Conflict
       |        由于冲突，请求无法被完成。
       |        410 Gone
       |        被请求的页面不可用。
       |        411 Length Required
       |        "Content-Length" 未被定义。如果无此内容，服务器不会接受请求。
       |        412 Precondition Failed
       |        请求中的前提条件被服务器评估为失败。
       |        413 Request Entity Too Large
       |        由于所请求的实体的太大，服务器不会接受请求。
       |        414 Request-url Too Long
       |        由于url太长，服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时，就会发生这种情况。
       |        415 Unsupported Media Type
       |        由于媒介类型不被支持，服务器不会接受请求。
       |        416 Requested Range Not Satisfiable
       |        服务器不能满足客户在请求中指定的Range头。
       |        417 Expectation Failed
       |        执行失败。
       |        423
       |        锁定的错误。
       |
        --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
oliver-11
关注
0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
urllib2爬虫

============================================================ Urllib2爬虫 ============================================================ URLlib2基本操作: 1 ---------...
复制链接

扫一扫