关于CSDN的模拟登录,网上已经有相当一部分博主发过类似的文章,我这里不过稍稍模仿下,使用前辈们的经验时,还是非常感激的。具体过程如下:
(1)确定登录页面的表单递交网址hosturl,以及得到cookie之后需要抓取的页面;
(2)审查元素,查看所需要的header,以及是否有加密行为;
(3)心怀敬畏的码代码:
A 建立opener,向posturl页面递交表单数据,返回得到cookie
B 用带有cookie的opener访问最终页面
下面上源代码
#-*-coding:GBK-*-
#author:zwg
import urllib,urllib2,re,cookielib
#建立带有cookie的opener
cookie = cookielib.CookieJar()
cookieProc = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(cookieProc)
#opener=urllib2.build_opener()
#opener.add_handler(cookieProc)
#opener.addheaders(headers)
h = opener.open('https://passport.csdn.net').read().decode("utf8")
patten1 = re.compile(r'name="lt" value="(.*?)"')
patten2 = re.compile(r'name="execution" value="(.*?)"')
b1 = patten1.findall(h)
b2 = patten2.findall(h)
postData = {
'username': '账号',
'password': '密码',
'lt': b1[0],
'execution': b2[0],
'_eventId': 'submit',
}
postData= urllib.urlencode(postData)
opener.addheaders = [('User-Agent',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'),
('Referer', 'https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn')
]
response = opener.open('https://passport.csdn.net', data=postData)
text = response.read()
# print(text)
# exit()
response2 = opener.open('http://my.csdn.net/my/mycsdn')
text2 = response2.read()
file1 = file('csdn.html', 'w')
file1.write(text2)
file1.close()