Python爬虫0.2

最新推荐文章于 2024-04-18 15:29:10 发布

codebrid

最新推荐文章于 2024-04-18 15:29:10 发布

阅读量253

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/ccbrid/article/details/77618876

版权

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

【http://blog.csdn.net/pleasecallmewhy/article/details/8924889】

笔记：

urllib2中的两个个方法:info and geturl

urllib2_test10.py来比较一下原始URL和重定向的链接：

 
     [python]  
      
     view plain 
      copy 
    
   from urllib2 import Request, urlopen, URLError, HTTPError  
  old_url = 'http://rrurl.cn/b1UZuP'  
  req = Request(old_url)  
  response = urlopen(req)    
   print 'Old url :' + old_url  
   print 'Real url :' + response.geturl() 

按原文网址输出 response = urlopen(req)错误，更换网之后成功。

*geturl()返回获取的真实的URL因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同。

***************************************************************************

************插入两个网址

************1.爬取贴吧图片和文本 http://m.blog.csdn.net/qq_24421591/article/details/52596076

************2.抓取新闻并自动生成word文档 http://m.blog.csdn.net/xiongyangg/article/details/50610545

*******************************************************************************

urllib2_test11.py来测试一下info的应用：

[python] view plain copy

from urllib2 import Request, urlopen, URLError, HTTPError
old_url = 'http://www.baidu.com'
req = Request(old_url)
response = urlopen(req)
print 'Info():'
print response.info()

urllib2中的两个重要概念：Openers和Handlers

获取一个URL使用默认opener：通过urlopen。Openers使用处理器handlers，所有的“繁重”工作http://blog.csdn.net/pleasecallmewhy/article/details/8924889

eg : Basic Authentication 基本验证

# -*- coding: utf-8 -*-
import urllib2
# 创建一个密码管理者
password_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()
# 添加用户名和密码
# 如果知道 realm, 我们可以使用他代替 ``None``.
top_level_url = "http://example.com/foo/"
password_mgr.add_password(None, top_level_url,'why', '1223')# (None, top_level_url, username, password)
handler = urllib2.HTTPBasicAuthHandler(password_mgr)# 创建了一个新的handler
# 创建 "opener" (OpenerDirector 实例)
opener = urllib2.build_opener(handler)
a_url = 'http://www.baidu.com/'
# 使用 opener 获取一个URL
opener.open(a_url)
# 安装 opener.
# 现在所有调用 urllib2.urlopen 将用我们的 opener.
urllib2.install_opener(opener)

codebrid

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫0.2

【http://blog.csdn.net/pleasecallmewhy/article/details/8924889】笔记：urllib2中的两个个方法:infoand geturl urllib2_test10.py来比较一下原始URL和重定向的链接：[python] view plain copyfrom urllib2 import Request
复制链接

扫一扫