前段时间发现一个不错的网站,上面有非常多的我喜欢的mp3歌曲,因为歌曲的下载地址分布在各个子页面上,我便写了一个python脚本用来抓取各个页面
的mp3下载地址自动整理下载。但是遇到一个小问题,网站需要id登陆才可以打开页面并下载。后来xyb给了两种可以实现我要的功能。后来我又看了一下
python2.3的lib ref文档,发现其实用httplib就可以实现,代码如下:
# loginbbs.pyimport urllib,httplib
params = urllib.urlencode({username:pytest, #此处为要post的登陆参数,你可以修改为你自己的参数
password:pypassword,
Cookies_Time: 1,
IsLogin:True})
headers = {Content-type: application/x-www-form-urlencoded,Accept: text/plain}
#构建headers
conn = httplib.HTTPConnection(music.popv.net:80) #建立http连接,记得地址不要加http://且要加上port
conn.request(POST,http://music.popv.net/popv/login.asp, params, headers)
#发送登陆请求response = conn.getresponse() #获得回复
print response.status, response.reason #获得请求状态
data = response.read() #获得登陆后的网页内容
conn.close() #关闭连接
================
# 因为要登录,那么自然是需要保存cookie了新建一个cookieJar 对象来保存cookie用
cookieJar = cookielib.CookieJar()
# 新建一个handler 来让Director处理cookie
cookieProcessor = urllib2.HTTPCookieProcessor(cookieJar)
# 建立一个opener
opener = urllib2.build_opener(cookieProcessor)
# 参数是一个字典,每个input的name是key,value就是value了
params = urllib.urlencode({'username':'sb', 'password':'sp'})
# 根据要访问的action 建立一个request
request = urllib2.Request("http://www.somesite.com/Login.do")
# 用open 去提交POST请求
httpf = opener.open(request, params)
# 打印返回的结果,应该是个成功登录的html页面
print httpf.read()
# 把cookie从返回结果里提出来,方便下面继续访问时使用
cookieJar.extract_cookies(httpf, request)
其实我原来喜欢用curl,不过我不知道怎么在cygwin下面装pycurl...