python爬虫之免扫码登录实现疫情相关微博文章以及评论的获取(一)

以下内容主要实现微博登录的过程

创作时间:2020/11/13
亲测有效

1、实现登录的心路历程

自从2020年9月份起,微博登录不仅需要输出账号,密码,验证码同时还增加了扫码的方式才能登录。在经历过多次挫败后,终于无意在B站找到了希望之光,另辟蹊径,实现免扫码就能进行登录的过程。

实现方式:因为微博是新浪的子产品,而登录新浪网不需要进行扫码登录,因此只要将登录微博的url地址换成登录新浪的url地址,就可以拿到登录所必须的cookie,再将获取到的cookie写入header中,可以进行数据的爬取。

在进行数据抓包的时候,建议打开浏览器无痕窗口,输入新浪网址:http://my.sina.com.cn,打开控制台进行登录

2、实现登录的代码过程

注:爬虫登录的接口需要进行抓包,chrome提供了自动抓包工具,F12或者Ctrl+shift+i进行控制台——>点击netWork——>勾选Preserve log

2.1、模块的导入

import requests
import urllib
import base64
import time
import re
import json
import rsa
import binascii
from bs4 import BeautifulSoup
from requests.packages.urllib3.connectionpool import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

2.2、获取账号

微博的账号就是su字段对应的值,进行了一系列的加密过程。user_name表示用户输入的账号,实现代码如下:

    def get_username(self):
        return base64.b64encode(urllib.parse.quote(self.user_name).encode("utf-8")).decode("utf-8") 

2.3、欲登录实现

该接口在输入账号后会出现,目的是输出在输入密码后,对密码进行加密的一些字段如:pubkey,servertime等,实现代码如下:

    def get_pre_login(self):
        header = {
            "Referer": "http://my.sina.com.cn/profile/unlogin",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36"
        }
        params = {
            "entry": "account",
            "callback": "pluginSSOController.preloginCallBack",
            "su": self.get_username(),
            "rsakt": "mod",
            "checkpin": "1",
            "client": "ssologin.js(v1.4.19)",
            "_": int(time.time() * 1000)
        }
        try:
            response = self.session.post("https://login.sina.com.cn/sso/prelogin.php", params=params, headers=header,verify=False) # 因为方法定义在class类中,self.session相当于requests
            return json.loads(re.search(r"\((?P<data>.*)\)", response.text).group("data"))
        except:
            print("获取公钥失败")
            return 0

2.4、获取密码

登录所需要的sp字段的值就是加密后形成的密码,实现过程如下:

   def get_password(self):
        public_key = rsa.PublicKey(int(self.get_pre_login()["pubkey"], 16), int("10001", 16))
        password_string = str(self.get_pre_login()["servertime"]) + '\t' + str(
            self.get_pre_login()["nonce"]) + '\n' + self.pass_word
        password = binascii.b2a_hex(rsa.encrypt(password_string.encode("utf-8"), public_key)).decode('utf-8')
        return password

2.5、登录返回cookie信息

输入账号和密码后,可能需要进行验证码的输入,
如果需要,则获取登录接口所需要的door参数字段后才能成功的获取cookie
不需要,则直接会进行登录操作,获取到cookie

    def login(self):
        header = {
            "Content-Type": "application/x-www-form-urlencoded",
            "Origin": "http://my.sina.com.cn",
            "Referer": "http://my.sina.com.cn/profile/unlogin",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36"
        }
        post_data = {
            "entry": "account",
            "gateway": "1",
            "from": "",
            "savestate": "30",
            "qrcode_flag": "true",
            "useticket": "0",
            "pagerefer": "",
            "vsnf": "1",
            "su": self.get_username(),
            "service": "sso",
            "servertime": self.get_pre_login()["servertime"],
            "nonce": self.get_pre_login()["nonce"],
            "pwencode": "rsa2",
            "rsakv": self.get_pre_login()["rsakv"],
            "sp": self.get_password(),
            "sr": "1366*768",
            "encoding": "UTF-8",
            "cdult":"3",
            "domain":"sina.com.cn",
            # "prelt": "34",
            "returntype": "TEXT"
        }
        pre_login_data = self.get_pre_login()
        if pre_login_data['showpin'] == 1:
            url = "https://login.sina.com.cn/cgi/pin.php?r=%d&s=0&p=%s" % (int(time.time()), pre_login_data["pcid"])
            with open("captcha.jpeg", "wb") as file_out:
                file_out.write(self.session.get(url).content)
            code = input("请输入验证码:")
            post_data["door"] = code
        login_data = self.session.post("https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.19)&_=%d"%int(time.time() * 1000), data=post_data, headers=header, verify=False)
        ticket_url = json.loads(login_data.content)['crossDomainUrlList'][0]
        t_header = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36"
        }
        resp = requests.get(ticket_url, headers=t_header)
        sub = resp.cookies['SUB']
        print(sub)
        return sub

3、验证用户是否成功登录

这里的url我选择的是疫情话题,我发现用户登录后,会有 高级搜索文字,而未登录则没有,判断代码如下:

  def check_cookie(self):
        url = "https://s.weibo.com/weibo/%25E7%2596%25AB%25E6%2583%2585?topnav=1&wvr=6&b=1"
        headers = {
            "Origin": "https://s.weibo.com/weibo?q=%E7%96%AB%E6%83%85&xsort=hot&suball=1&timescope=custom:2020-11-09-0:2020-11-09-23&Refer=g",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36",
             "cookie": 'SUB={}'.format(self.login()),
            # "cookie": 'SUB=你的cookie'
        }
        res = requests.get(url, headers=headers)
        soup = BeautifulSoup(res.text, "html.parser")
        return soup.find_all('div', class_='action')

当你获取到cookie之后,因为cookie设置的时长有12小时左右,所以可以直接将获取的cookie值直接赋值到headers的cookie字段中,也就是注释cookie的那个地方。
若输出的内容仍然有高级搜索字样,则证明登录成功

4、源代码实现

注:user_name以及pass_word 需要修改为你的账号密码

import requests
import urllib
import base64
import time
import re
import json
import rsa
import binascii
from bs4 import BeautifulSoup
from requests.packages.urllib3.connectionpool import InsecureRequestWarning

requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

class Login(object):
    session = requests.session()
    user_name = "你的账号"
    pass_word = "你的密码"

    def get_username(self):
        return base64.b64encode(urllib.parse.quote(self.user_name).encode("utf-8")).decode("utf-8")  # 返回用户名 su字段的值

    def get_pre_login(self):
        header = {
            "Referer": "http://my.sina.com.cn/profile/unlogin",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36"
        }
        params = {
            "entry": "account",
            "callback": "pluginSSOController.preloginCallBack",
            "su": self.get_username(),
            "rsakt": "mod",
            "checkpin": "1",
            "client": "ssologin.js(v1.4.19)",
            "_": int(time.time() * 1000)
        }
        try:
            response = self.session.post("https://login.sina.com.cn/sso/prelogin.php", params=params, headers=header,verify=False)
            return json.loads(re.search(r"\((?P<data>.*)\)", response.text).group("data"))
        except:
            print("获取公钥失败")
            return 0

    def get_password(self):
        public_key = rsa.PublicKey(int(self.get_pre_login()["pubkey"], 16), int("10001", 16))
        password_string = str(self.get_pre_login()["servertime"]) + '\t' + str(
            self.get_pre_login()["nonce"]) + '\n' + self.pass_word
        password = binascii.b2a_hex(rsa.encrypt(password_string.encode("utf-8"), public_key)).decode('utf-8')
        return password

    def login(self):
        header = {
            "Content-Type": "application/x-www-form-urlencoded",
            "Origin": "http://my.sina.com.cn",
            "Referer": "http://my.sina.com.cn/profile/unlogin",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36"
        }
        post_data = {
            "entry": "account",
            "gateway": "1",
            "from": "",
            "savestate": "30",
            "qrcode_flag": "true",
            "useticket": "0",
            "pagerefer": "",
            "vsnf": "1",
            "su": self.get_username(),
            "service": "sso",
            "servertime": self.get_pre_login()["servertime"],
            "nonce": self.get_pre_login()["nonce"],
            "pwencode": "rsa2",
            "rsakv": self.get_pre_login()["rsakv"],
            "sp": self.get_password(),
            "sr": "1366*768",
            "encoding": "UTF-8",
            "cdult":"3",
            "domain":"sina.com.cn",
            # "prelt": "34",  #这个字段获取有点麻烦,后来发现注释掉也不影响
            "returntype": "TEXT"
        }
        pre_login_data = self.get_pre_login()
        if pre_login_data['showpin'] == 1:
            url = "https://login.sina.com.cn/cgi/pin.php?r=%d&s=0&p=%s" % (int(time.time()), pre_login_data["pcid"])
            with open("captcha.jpeg", "wb") as file_out:
                file_out.write(self.session.get(url).content)
            code = input("请输入验证码:")
            post_data["door"] = code
        login_data = self.session.post("https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.19)&_=%d"%int(time.time() * 1000), data=post_data, headers=header, verify=False)
        ticket_url = json.loads(login_data.content)['crossDomainUrlList'][0]
        t_header = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36"
        }
        resp = requests.get(ticket_url, headers=t_header)
        sub = resp.cookies['SUB']
        print(sub)
        return sub
    def check_cookie(self):
        url = "https://s.weibo.com/weibo/%25E7%2596%25AB%25E6%2583%2585?topnav=1&wvr=6&b=1"
        headers = {
            "Origin": "https://s.weibo.com/weibo?q=%E7%96%AB%E6%83%85&xsort=hot&suball=1&timescope=custom:2020-11-09-0:2020-11-09-23&Refer=g",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36",
             "cookie": 'SUB={}'.format(self.login()),
            # "cookie": 'SUB=_2A25yrVGiDeRhGeFP7lMQ9S_PyTuIHXVR28RqrDV8PUNbmtANLUH3kW9NQQnDlzrJI52d0j7UXYHMfHE0nWOF0i8l'
        }
        res = requests.get(url, headers=headers)
        soup = BeautifulSoup(res.text, "html.parser")
        return soup.find_all('div', class_='action')

login = Login()
print(login.check_cookie())
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
要使用Python编写爬虫获取微博评论,可以按照以下步骤进行操作: 1. 首先,你需要获取微博页面的URL地址。可以通过解析微博页面获取微博地址,或者直接从API接口获取微博地址。 2. 接下来,你可以使用Python的requests库发送HTTP请求,获取微博页面的内容。你可以设置请求头和Cookie来模拟登录状态。 3. 一旦获取微博页面的内容,你可以使用Python的正则表达式或者Beautiful Soup库来解析页面,提取出评论信息。 4. 如果想要获取评论和子评论,你可以编写函数来分别解析和获取这两种评论。 5. 对于子评论,你可能需要使用递归或者循环来获取所有的子评论,因为子评论可能会有分页的情况。 6. 最后,你可以将获取到的评论信息保存到文件或者数据库中,或者进行其他你需要的操作。 这是一个简单的示例代码,用于获取微博评论: ```python import requests def get_weibo_comments(url): # 发送HTTP请求,获取微博页面内容 response = requests.get(url) # 解析页面,提取评论信息 comments = parse_comments(response.text) # 返回评论信息 return comments def parse_comments(html): # 使用正则表达式或者Beautiful Soup库来解析页面,提取评论信息 # ... return comments # 使用示例 weibo_url = "https://example.com/weibo" comments = get_weibo_comments(weibo_url) print(comments) ``` 请注意,根据微博的反爬虫策略,你可能需要设置合适的请求头和Cookie来模拟登录状态,以确保能够成功获取微博页面的内容。另外,爬取他人微博评论需要谨慎,遵守相关的法律法规和用户协议。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值