有些网页需要你登录之后才可以访问,你需要提供账户和密码。
只要在发送http请求时,带上含有正常登录的cookie就可以了。
1、首先我们要先了解cookie的工作原理。
cookie是由服务器端生成,发送给User-Agent(一般是浏览器),浏览器会将cookie的key/value保存到某个目录下的文本文件内,下次请求同一网站时就发送该cookie给服务器(前提是浏览器设置为启用cookies)。cookies名称和值可以由服务器端开发自己定义,对于JSP而言也可以直接写入jsessionid,这样服务器就可以知道该用户是否是合法用户一级是否需要重新登录等。
2、之后我们要获取到用户正常登录的cookies
python提供了cookieJar的库,只要把cookieJar的实例作为参数传到urllib2的一个opener里面。
然后访问一次登录的页面,cookie就已经保存下来了。之后通过这个实例访问所有的页面都带有正常登录的cookies了。
以chinaunix论坛为例子:
#encoding=utf-8
import urllib2
import urllib
import cookielib
def loginPage(url):
login_page = "http://bbs.chinaunix.net/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=LzfmU"
try:
cj = cookielib.CookieJar()
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent','Mozilla/5.0 (compatible; MSIE 9.0; q\
desk 2.4.1264.203; Windows NT 6.1; WOW64; Trident/6.0)')]
user_data = {
"password":密码,
"username":用户名,
"referer":'http://bbs.chinaunix.net/./',
"loginsubmit":'true',
"formhash":'8882b32e'
}
data = urllib.urlencode(user_data)
opener.open(login_page,data)
op=opener.open(url)
data= op.read()
return data
except Exception,e:
print str(e)
print loginPage('http://bbs.chinaunix.net/home.php?mod=spacecp&ac=avatar')#这个页面没有登陆是无权限查看的,因此打印一下就能确定是否登录成功。