python 爬虫学习模拟登陆

最新推荐文章于 2024-10-18 00:00:00 发布

挽风月

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量205

点赞数

文章标签： python cookie 爬虫

本文链接：https://blog.csdn.net/poice00/article/details/49203861

版权

# coding=utf-8
import HTMLParser  
import urlparse  
import urllib  
import urllib2  
import cookielib  
import string  
import re  



#设置一个cookie处理器，它负责从服务器下载cookie到本地，并且在发送请求时带上本地的cookie  
def initCookies(hosturl):
    cj = cookielib.LWPCookieJar()  
    cookie_support = urllib2.HTTPCookieProcessor(cj)  
    opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)  
    urllib2.install_opener(opener)  
    #打开登录主页面（他的目的是从页面下载cookie，这样我们在再送post数据时就有cookie了，否则发送不成功） 
    h = urllib2.urlopen(hosturl) 

def getHtml(url,username,password):
    #构造header，一般header至少要包含一下两项。这两项是从抓到的包里分析得出的。  
    headers = {'User-Agent' : ' Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.130 Safari/537.36',  
               'Referer' : 'http://fanfou.com'}  
    #构造Post数据，他也是从抓大的包里分析得出的。  
    postData = { 
                'loginname'  :  username,
                'loginpass'   : password,
                'action'  : 'login',
                #'token'  :  'af7b1135'
                }  

    #需要给Post数据编码  
    postData = urllib.urlencode(postData)  
    #通过urllib2提供的request方法来向指定Url发送我们构造的数据，并完成登录过程  
    request = urllib2.Request(posturl, postData, headers)  
    response = urllib2.urlopen(request)  
    text = response.read()  
    return text

if __name__=="__main__":
    posturl = 'http://fanfou.com/login'
    username='****@qq.com'
    password='*****'
    initCookies(posturl)
    print 'begin login..'
    print getHtml(posturl,username,password)