利用爬虫模拟网页微信wechat

最新推荐文章于 2022-06-03 21:59:33 发布

weixin_30577801

最新推荐文章于 2022-06-03 21:59:33 发布

阅读量205

点赞数

文章标签：爬虫后端 json

原文链接：http://www.cnblogs.com/weiwu1578/articles/9010561.html

版权

1.登录页面，显示二维码

当我们打开网页微信时，会看到一个用于扫码登录的二维码，所以我们要模拟该页面给我们的页面也弄一个二维码

通过查看网页代码我们发现，这个二维码的标签为

这个src属性的最后一段每次访问都是不同的，我们发现每次访问该页面时，会向后端发送请求获得这个随机字符串

这个请求的结果为

所以该请求获取的结果就是我们想要的随机字符串，那么我们也可以向这个url发送请求，获取随机字符串，并利用随机字符串拼接地址获取二维码图片

from flask import Flask, request, render_template, session
import time
import requests
import re
app = Flask(__name__)
app.debug = True
app.secret_key = 'ksjgs'


@app.route('/login', methods=['GET', 'POST'])
def login():
    if request.method == 'GET':
        ctime = str(int(time.time() * 1000))  # url最后的内容其实是时间戳经过处理的结果
        qcode_url = 'https://login.wx.qq.com/jslogin?appid=wx782c26e4c19acffb&redirect_uri=https%3A%2F%2Fwx.qq.com%2Fcgi-bin%2Fmmwebwx-bin%2Fwebwxnewloginpage&fun=new&lang=zh_CN&_={}'.format(ctime)
        ret = requests.get(qcode_url)
        qcode = re.findall('uuid = "(.*)";', ret.text)[0]
        session['qcode'] = qcode
        return render_template('login.html', qcode=qcode)
    else:
        pass

if __name__ == '__main__':
    app.run()

login页面

<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="x-ua-compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <title>微信登录</title>
</head>
<body>
<h1>微信登录</h1>
<img src="https://login.weixin.qq.com/qrcode/{{qcode}}" alt="">
<script src="/static/jquery-3.2.1.min.js"></script>

</body>
</html>

这样，我们访问时就能看到二维码了

扫码后二维码变成用户头像

看到二维码后如果我们进行了扫码，那么页面上的二维码会立刻变成用户的头像，但是此时我们并没有看到页面向后端发送请求，为什么后端能让前端的页面发生变化呢，我们通过浏览器的network选项发现，其实当页面加载完成后，浏览器会不停的向后端的一个url发送

请求，这个请求发送到后端后就被夯住了，这个时间在25秒左右，如果没有人扫码，那么请求会结束，浏览器继续发送，如果有人扫码了，那么后端会立刻向浏览器返回相关信息，浏览器就可以将页面的二维码改变为用户的头像了，这种持续发送请求的方式称为长轮询

我们在页面加载完成后也模拟这个长轮询

login页面

<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="x-ua-compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <title>微信登录</title>
</head>
<body>
<h1>微信登录</h1>
<img src="https://login.weixin.qq.com/qrcode/{{qcode}}" alt="">
<script src="/static/jquery-3.2.1.min.js"></script>
<script>
    $(function () {
        check_login()
    });

    function check_login() {
        $.ajax({
            url: '/check_login',
            type: 'GET',
            dataType: 'JSON',
            success:function (arg) {
                if (arg.code === 201){
                    $('img').attr('src', arg.src);
                    check_login()
                } else if(arg.code === 200){
                    location.href = '/index'
                }else{
                    check_login()
                }
            }
        })
    }
</script>
</body>
</html>

前端页面加载完成后就开始向后端发送ajax长轮询，根据后端返回的内容判断是否继续发送轮询还是进行跳转，如果有人扫码了，那么就将扫码人的头像替换页面上的二维码，并继续轮询，直到扫码人点击确认，则进行跳转，没人扫码则一直进行长轮询

后端

from flask import Flask, request, render_template, session, jsonify
import time
import requests
import re
from bs4 import BeautifulSoup

app = Flask(__name__)
app.debug = True
app.secret_key = 'ksjgs'


def xml_parser(text):
    """
    <error>
    <ret>0</ret><
    message></message>
    <skey>@crypt_ef73b06b_bd2d7a9918de33c9fc59b3b518a5314f</skey>
    <wxsid>5gfJFQAju+rnuD3t</wxsid><
    wxuin>2507632864</wxuin>
    <pass_ticket>n3hBG1Aky%2FORERALnTUhkjRrAaho%2BX6vu8%2B9Z3gPrsmnWmKqs5a%2BFe%2FehjeweCeP</pass_ticket>
    <isgrayscale>1</isgrayscale>
    </error> 
    """
    dic = {}
    soup = BeautifulSoup(text, 'html.parser')
    div = soup.find(name='error')
    for item in div.find_all(recursive=False):
        dic[item.name] = item.text
    return dic


@app.route('/login', methods=['GET', 'POST'])
def login():
    if request.method == 'GET':
        ctime = str(int(time.time() * 1000))  # url最后的内容其实是时间戳经过处理的结果
        qcode_url = 'https://login.wx.qq.com/jslogin?appid=wx782c26e4c19acffb&redirect_uri=https%3A%2F%2Fwx.qq.com%2Fcgi-bin%2Fmmwebwx-bin%2Fwebwxnewloginpage&fun=new&lang=zh_CN&_={}'.format(
            ctime)
        ret = requests.get(qcode_url)
        qcode = re.findall('uuid = "(.*)";', ret.text)[0]
        session['qcode'] = qcode
        return render_template('login.html', qcode=qcode)
    else:
        pass


@app.route('/check_login')
def check_login():
    ctime = str(int(time.time() * 1000))
    qcode = session.get('qcode')
    check_url = 'https://login.wx.qq.com/cgi-bin/mmwebwx-bin/login?loginicon=true&uuid={}&tip=0&r=-1052355888&_={}'.format(
        qcode, ctime)
    ret = requests.get(check_url)
    response = {'code': 408}  # 如果没人扫码，则返回的code为408
    if 'code=201' in ret.text:  # 如果有人扫码了，则会返回201，并且会返回用户的头像的src
        response['code'] = 201
        response['src'] = re.findall("userAvatar = '(.*)';", ret.text)[0]
    elif 'code=200' in ret.text:  # 有人扫码后前端页面仍然会发送长轮询，直到扫码的人点击确认登录，会返回200
        redirect_uri = re.findall('redirect_uri="(.*)";', ret.text)[0]  # 此时会返回跳转地址
        # 向redirect_uri地址发送请求，获取凭证相关信息
        redirect_uri = redirect_uri + "&fun=new&version=v2"  # 这个跳转地址并不全，我们需要自己补充
        ticket_ret = requests.get(redirect_uri)  # 向跳转地址发送请求，获取登录凭证
        ticket_dict = xml_parser(ticket_ret.text)  # 这个登录凭证是一个xml的格式，我们通过一个函数将他转换成字典
        session['ticket_dict'] = ticket_dict  # 将登录凭证存入session，方便后面使用
        response['code'] = 200
    return jsonify(response)


@app.route('/index')
def index():
    return '登录成功'

if __name__ == '__main__':
    app.run()

获取用户信息

当确认登录后，会返回跳转地址，浏览器会向这个跳转地址发送get请求，获取一个凭证(类似于cookie，xml格式)，获取这个凭证后，浏览器会接着发送一个post请求，请求内容就是凭证内的相关内容，这个post请求就能获取用户的信息，最近联系人等信息

我们这里通过index函数来发送这个post请求

@app.route('/index')
def index():
    """
    用户数据的初始化
    https://wx.qq.com/cgi-bin/mmwebwx-bin/webwxinit?r=-1039465096&lang=zh_CN&pass_ticket=q9TOX4RI4VmNiHXW9dUUl1oMzoQK2X2f3H3kn0VYm5YGNwUMO2THYMznv8DSXqp0

    :return:
    """
    ticket_dict = session.get('ticket_dict')
    init_url = "https://wx.qq.com/cgi-bin/mmwebwx-bin/webwxinit?r=-1039465096&lang=zh_CN&pass_ticket={0}".format(ticket_dict.get('pass_ticket'))

    data_dict = {
        "BaseRequest":{
            "DeviceID":"e750865687999321",
            "Sid":ticket_dict.get('wxsid'),
            "Uin":ticket_dict.get('wxuin'),
            "Skey":ticket_dict.get('skey'),
        }
    }

    init_ret = requests.post(
        url=init_url,
        json=data_dict
    )
    init_ret.encoding = 'utf-8'
    user_dict = init_ret.json()
    print(user_dict)
    # for user in user_dict['ContactList']:
    #     print(user.get('NickName'))

    return render_template('index.html',user_dict=user_dict)

首先从session中获取我们处理后得到的凭证字典，然后发送post请求，这里发送的数据为json格式，post请求的返回内容就是用户相关数据的字典，我们可以通过ret.json()直接获取这个字典（相当于经过json.loads），然后将相关的内容渲染到页面上

index页面

<!DOCTYPE html>
<html lang="zh-cn">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <title>Title</title>
</head>
<body>
    <h1>欢迎登录：{{user_dict.User.NickName}}</h1>
    <h3>最近联系人</h3>
    <ul>
        {% for user in user_dict.ContactList%}
        <li>{{user.NickName}}</li>
        {% endfor %}
    </ul>
</body>
</html>

转载于:https://www.cnblogs.com/weiwu1578/articles/9010561.html

weixin_30577801

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用爬虫模拟网页微信wechat

1.登录页面，显示二维码当我们打开网页微信时，会看到一个用于扫码登录的二维码，所以我们要模拟该页面给我们的页面也弄一个二维码通过查看网页代码我们发现，这个二维码的标签为这个src属性的最后一段每次访问都是不同的，我们发现每次访问该页面时，会向后端发送请求获得这个随机字符串这个请求的结果为所以该请求获取的结果就是我们想要的随机字符串，那么我们也可以向这个url...
复制链接

扫一扫