爬虫基础_肖长青

最新推荐文章于 2024-07-22 15:19:55 发布

肖长青

最新推荐文章于 2024-07-22 15:19:55 发布

阅读量61

点赞数

文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/IT_qing/article/details/123465423

版权

爬虫入门程序

urllib2 实现下载网页的三种方式：

第一种：

import cookielib
import urllib2
 
url = "http://www.baidu.com"
response1 = urllib2.urlopen(url)
print "第一种方法"
#获取状态码，200表示成功
print response1.getcode()
#获取网页内容的长度
print len(response1.read())

第二种：

request = urllib2.Request(url)
#模拟Mozilla浏览器进行爬虫
request.add_header("user-agent","Mozilla/5.0")
response2 = urllib2.urlopen(request)
print response2.getcode()
print len(response2.read())

第三种：

cookie = cookielib.CookieJar()
#加入urllib2处理cookie的能力
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print len(response3.read())
print cookie

爬虫程序添加data、header，然后post请求

import urllib  
import urllib2  
 
url = 'http://www.server.com/login'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
values = {'username' : 'cqc',  'password' : 'XXXX' }  
headers = { 'User-Agent' : user_agent }  
data = urllib.urlencode(values)  
request = urllib2.Request(url, data, headers)  
response = urllib2.urlopen(request)  
page = response.read()

爬虫程序添加cookie

为什么添加cookie?
Cookie，指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用 Urllib2 库保存我们登录的 Cookie，然后再抓取其他页面就达到目的了

获取 Cookie 保存到变量
首先，我们先利用 CookieJar 对象实现获取 cookie 的功能，存储到变量中，先来感受一下

import urllib2
import cookielib
#声明一个CookieJar对象实例来保存cookie
cookie = cookielib.CookieJar()
#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler=urllib2.HTTPCookieProcessor(cookie)
#通过handler来构建opener
opener = urllib2.build_opener(handler)
#此处的open方法同urllib2的urlopen方法，也可以传入request
response = opener.open('http://www.baidu.com')
for item in cookie:
    print 'Name = '+item.name
    print 'Value = '+item.value

我们使用以上方法将 cookie 保存到变量中，然后打印出了 cookie 中的值，运行结果如下

Name = BAIDUID
Value = B07B663B645729F11F659C02AAE65B4C:FG=1
Name = BAIDUPSID
Value = B07B663B645729F11F659C02AAE65B4C
Name = H_PS_PSSID
Value = 12527_11076_1438_10633
Name = BDSVRTM
Value = 0
Name = BD_HOME
Value = 0

保存 Cookie 到文件
在上面的方法中，我们将 cookie 保存到了 cookie 这个变量中，如果我们想将 cookie 保存到文件中该怎么做呢？这时，我们就要用到 FileCookieJar 这个对象了，在这里我们使用它的子类 MozillaCookieJar 来实现 Cookie 的保存

mport cookielib
import urllib2
 
#设置保存cookie的文件，同级目录下的cookie.txt
filename = 'cookie.txt'
#声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件
cookie = cookielib.MozillaCookieJar(filename)
#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler = urllib2.HTTPCookieProcessor(cookie)
#通过handler来构建opener
opener = urllib2.build_opener(handler)
#创建一个请求，原理同urllib2的urlopen
response = opener.open("http://www.baidu.com")
#保存cookie到文件
cookie.save(ignore_discard=True, ignore_expires=True)

正则表达式

正则表达式的语法规则

肖长青

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫基础_肖长青

爬虫入门程序urllib2 实现下载网页的三种方式：第一种：import cookielibimport urllib2 url = "http://www.baidu.com"response1 = urllib2.urlopen(url)print "第一种方法"#获取状态码，200表示成功print response1.getcode()#获取网页内容的长度print len(response1.read())第二种：request = urllib2.Req
复制链接

扫一扫