新浪微博模拟登录分析(含验证码)

实验室项目结题需要爬取新浪微博的内容做实验,师兄提供了一份已实现的微博爬虫系统。本身可以轻松愉快的完成语聊收集这一部分,然而自己的微博账号始终登录失败。究其原因,结果是登录时需要验证码。而系统对于需要验证码登录的账号只能GG了,谷歌“新浪微博爬虫”相关内容后,发现多数文章(主要参考了豆瓣百度空间博客园)都是重复讨论模拟登录的过程。网上的文章并没有提到解决需要验证码登录的问题,或许是因为api没有返回相关的信息,但自己发现最新的微博登录api确实返回了验证码相关的信息,故实现了通过人工输入验证码的方式进行模拟登录。

为了给大家一个对新浪微博登录过程完整的认识,本文也会重复已有文章的内容。

我们知道,对于需要登录验证的网站,当用户第一次登录后,浏览器通过保存该网站服务器返回的cookie值,以便用户再次访问的时候无需登录即可访问。因此,爬虫也是通过模拟一次登录获取cookie值,并保存,然后就能以此登录状态进行资源获取。


接下来开始解析新浪微博登录的过程。 

当输入用户名后,通过Chrome的工具可以看到,此时网站向服务器发送了一个请求。

http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=dXNlciU0MGV4YW1wbGUuY29t&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.18)&_=1414332319589  

返回的结果如下: 
 
这是一个js的回调函数,里面包含了一些服务器返回的信息(图中pubkey的信息因截断未显示完全)。此时,我们可能并不知道这些信息的含义,对该url请求的参数也不清晰。通过查看网站的js脚本文件,格式化代码后定位prelogin函数,见下图。从中,我们可以看出,prelogin请求中的su是base64加密后的用户名,callback是请求返回后应执行的回调函数,rsakt、entry、client都是固定值,_很容易猜到是当前的时间戳(其实没有此参数的情况下,也能登录),而checkpin比较重要,与验证码认证有关,在以前的prelogin请求中没有此参数。经验证,当checkpin=1的时候,服务器返回信息中会有一个字段showpin=0|1代表是否需要验证码认证。在preloginCallBack函数中可以看到,将服务器返回的servertime,nonce,pubkey,rsakv,pcid等信息保存,从代码中可以发现与rsa加密有关,其实新浪微博目前正是采用了rsa算法对密码进行加密操作。 
如果showpin的值为1,此时会产生一个新的请求。这个请求返回的结果就是登录需要的验证码图片。

http://login.sina.com.cn/cgi/pin.php?r=87514507&s=0&p=xd-9b5b5d8096a1990aff860ac408eb7dbf7e29  

依然查看网站js代码,参数p其实就是prelogin返回的pcid值,而r是一个随机数,a等于0。 

到这里,登录的准备工作就完成了。当输入完密码(及验证码)后,点击登录,网站将post一些数据至以下url。其中client参数只是简单指明登录api的版本。

http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)  

通过Chrome的调试工具可以看到post数据主要包括以下字段。主要的参数已有prelogin返回,在需要输入验证码的时候,则会有door字段,它的值就是从服务器获取的验证码图片的值,susp分别代表加密后的用户名和密码。 
通过查看相关js代码,可以知道用户名和密码的加密过程。这里,用户名同样是base64加密,而密码则是根据loginType的值进行相应算法加密。不过,由于代码全局设置了this.loginType = rsa;,目前的登录均采用的是rsa加密。从代码中可以看到,密码的加密过程确实使用了prelogin返回的servertime,nonce,pubkey等数据。 
这一步请求返回的结果是包含了网站跳转的html文档。 
上图是登录失败的结果,跳转的url是:

http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack&sudaref=weibo.com&retcode=2070&reason=%CA%E4%C8%EB%B5%C4%D1%E9%D6%A4%C2%EB%B2%BB%D5%FD%C8%B7  

其中retcode(=0时表示成功)是错误代码,reason是错误提示信息。(自己实现登录的时候,当retcode!=0时可以直接输出错误信息,无需跳转。) 
在账号信息正确的情况下,请求返回的结果如下图。其中包含了真实登录的跳转链接。当请求此链接时,服务器会返回用于认证的cookie值,此链接请求一次后便失效,该请求成功后则代表此次登录成功。因此,自己实现模拟登录的时候,需要在这一步保存cookie信息,然后就可以利用获取的cookie信息访问登录后的资源。 


以上就是微博登录整个过程。下面提供一个用Python实现的微博登录供大家参考。

# coding=utf8
import base64
import binascii
import cookielib
import json
import os
import random
import re
import rsa
import time
import urllib
import urllib2
import urlparse
from pprint import pprint
 
 
__client_js_ver__ = 'ssologin.js(v1.4.18)'
 
 
class Weibo(object):
 
    """"Login assist for Sina weibo."""
 
    def __init__(self, username, password):
        self.username = self.__encode_username(username).rstrip()
        self.password = password
 
        cj = cookielib.LWPCookieJar()
        self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
 
    @staticmethod
    def __encode_username(username):
        return base64.encodestring(urllib2.quote(username))
 
    @staticmethod
    def __encode_password(password, info):
        key = rsa.PublicKey(int(info['pubkey'], 16), 65537)
        msg = ''.join([
            str(info['servertime']),
            '\t',
            str(info['nonce']),
            '\n',
            str(password)
        ])
        return binascii.b2a_hex(rsa.encrypt(msg, key))
 
    def __prelogin(self):
        url = ('http://login.sina.com.cn/sso/prelogin.php?'
               'entry=weibo&callback=sinaSSOController.preloginCallBack&rsakt=mod&checkpin=1&'
               'su={username}&_={timestamp}&client={client}'
               ).format(username=self.username, timestamp=int(time.time() * 1000), client=__client_js_ver__)
 
        resp = urllib2.urlopen(url).read()
        return self.__prelogin_parse(resp)
 
    @staticmethod
    def __prelogin_parse(resp):
        p = re.compile('preloginCallBack\((.+)\)')
        data = json.loads(p.search(resp).group(1))
        return data
 
    @staticmethod
    def __process_verify_code(pcid):
        url = 'http://login.sina.com.cn/cgi/pin.php?r={randint}&s=0&p={pcid}'.format(
            randint=int(random.random() * 1e8), pcid=pcid)
        filename = 'pin.png'
        if os.path.isfile(filename):
            os.remove(filename)
 
        urllib.urlretrieve(url, filename)
        if os.path.isfile(filename):  # get verify code successfully
            #  display the code and require to input
            from PIL import Image
            import subprocess
            proc = subprocess.Popen(['display', filename])
            code = raw_input('请输入验证码:')
            os.remove(filename)
            proc.kill()
            return dict(pcid=pcid, door=code)
        else:
            return dict()
 
    def login(self):
        info = self.__prelogin()
 
        login_data = {
            'entry': 'weibo',
            'gateway': '1',
            'from': '',
            'savestate': '7',
            'useticket': '1',
            'pagerefer': '',
            'pcid': '',
            'door': '',
            'vsnf': '1',
            'su': '',
            'service': 'miniblog',
            'servertime': '',
            'nonce': '',
            'pwencode': 'rsa2',
            'rsakv': '',
            'sp': '',
            'sr': '',
            'encoding': 'UTF-8',
            'prelt': '115',
            'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',
            'returntype': 'META'
        }
        if 'showpin' in info and info['showpin']:  # need to input verify code
            login_data.update(self.__process_verify_code(info['pcid']))
        login_data['servertime'] = info['servertime']
        login_data['nonce'] = info['nonce']
        login_data['rsakv'] = info['rsakv']
        login_data['su'] = self.username
        login_data['sp'] = self.__encode_password(self.password, info)
 
        return self.__do_login(login_data)
 
    def __do_login(self, data):
        url = 'http://login.sina.com.cn/sso/login.php?client=%s' % __client_js_ver__
        headers = {
            'User-Agent': 'Weibo Assist'
        }
        req = urllib2.Request(
            url=url, data=urllib.urlencode(data), headers=headers)
        resp = urllib2.urlopen(req).read()
 
        return self.__parse_real_login_and_do(resp)
 
    def __parse_real_login_and_do(self, resp):
        p = re.compile('replace\(["\'](.+)["\']\)')
        url = p.search(resp).group(1)
 
        # parse url to check whether login successfully
        query = urlparse.parse_qs(urlparse.urlparse(url).query)
        if int(query['retcode'][0]) == 0:  # successful
            self.opener.open(url)  # log in and get cookies
            print u'登录成功!'
            return True
        else:  # fail
            print u'错误代码:', query['retcode'][0]
            print u'错误提示:', query['reason'][0].decode('gbk')
            return False
 
    def urlopen(self, url):
        return self.opener.open(url)
 
 
if __name__ == '__main__':
    weibo = Weibo('user@example.com', 'password')
    if weibo.login():
        print weibo.urlopen('http://weibo.com').read()
        # with open('weibo.html', 'w') as f:
        # print >> f, weibo.urlopen('http://weibo.com/kaifulee').read()

#-----------------------------------------------------------

转载于:http://blog.youcanlove.me/xin-lang-wei-bo-deng-lu-fen-xi/

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值