微博自动化登录(selenium+cookie)

最新推荐文章于 2024-05-20 19:00:00 发布

皮猪

最新推荐文章于 2024-05-20 19:00:00 发布

阅读量3.9k

点赞数 11

分类专栏： python爬虫学习文章标签： selenium python 爬虫

本文链接：https://blog.csdn.net/qq_28239511/article/details/116382644

版权

python爬虫学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

文章目录

前言
一、首先分析网页
二、编写代码
总结

前言

本次呢我讲俩种方法，一种是单纯的selenium自动化登录，这种方法经测试不太行。因为单纯使用账号密码登录微博现在行不通，还需要手机验证码。另一种是使用selenium加cookie的方法登录，经测试很有效。只需要在第一次使用手机扫码登录后用selenium保存cookie，后续就可以用之前保存的cookie登录微博了。

编写代码

1.分析网页

首先是第一种方法。
还是老套路，右键点击检查，因为selenium操作的是渲染后的网页，所以直接看elements就好了。找到账号、密码和登录对应的标签。
屏幕截图 2021-05-03 235158
屏幕截图 2021-05-03 235226
屏幕截图 2021-05-03 235321
然后写好登录时发现还需要验证码。一样的找到验证码和验证码输入框对应的标签。
屏幕截图 2021-05-03 235959
屏幕截图 2021-05-04 000017
这里的验证码我们可以采用百度免费的ocr接口来识别或者打码平台的接口来识别，或者自己训练一堆验证码，然后用自己的接口来识别。不过一般我们采用别人的接口就可以了，一方面时使用的次数不多，另一方面没这个技术。这里我采用的打码平台，因为百度的接口识别的效果不太好。
第二种方法就更简单了。
就是用selenium打开微博网页后，手机扫码登录，然后selenium获取cookie保存到文件里。然后后面就读取这个文件，selenium携带cookie就可以免账号密码登录微博了。

2.编写代码

第一种

首先是selenium登录网页然后输入账号密码，点击登录后，出现了验证码，利用selenium直接将验证码截图，处理为灰色图片，上传打码平台，将返回的识别结果填入验证码输入框，点击登录的主函数。

def get_html(url,zhanghao,password):
    #打开谷歌浏览器
    wd = webdriver.Chrome()
    #发起请求
    wd.get(url)
    time.sleep(5)
    #输入账号
    zhh = wd.find_element_by_xpath('//*[@id="loginname"]')
    zhh.send_keys(Keys.CONTROL, 'a')
    zhh.send_keys(zhanghao)
    time.sleep(1)
    #输入密码
    pw = wd.find_element_by_xpath('//*[@type="password"]')
    pw.send_keys(Keys.CONTROL, 'a')
    pw.send_keys(password)
    time.sleep(1)
    # 点击登录按钮
    login_button = wd.find_element_by_xpath('//*[@node-type="normal_form"]//*[@class="info_list login_btn"]')
    login_button.click()
    time.sleep(1)
    try:
        x_button = wd.find_element_by_xpath('//*[@class="main_txt"]/a')
        x_button.click()
        time.sleep(2)
    except BaseException:
        pass
    element = wd.find_element_by_xpath('//*[@node-type="verifycode_image"]') # 定位验证码图片
    filename = str(random.random()) + '.png'  # 生成随机文件名
    element.screenshot(filename)
    im = Image.open(filename)
    # 转换为灰度图像
    im = im.convert('L')
    im.save(filename)
    # 使用打码平台中提供的方法识别验证码并返回验证码
    data = base64_api('mark123','123456',filename,'3')
    wd.find_element_by_xpath('//*[@action-data="text=请输入验证码"]').send_keys(data)  # 输入验证码
    # 点击登录按钮
    login_button = wd.find_element_by_xpath('//*[@node-type="normal_form"]//*[@class="info_list login_btn"]')
    login_button.click()
    time.sleep(1)
    time.sleep(1000)  # 为了看清登录，等待1000秒

接下来是打码平台的接口，这个要自己去阅读打码平台的API开发文档，如果对啥是API不了解的话可以看本专栏的第一篇文章。简单的API爬虫(和风天气数据获取)

def base64_api(uname, pwd, img, typeid):
    with open(img, 'rb') as f:
        base64_data = base64.b64encode(f.read())
        b64 = base64_data.decode()
    data = {"username": uname, "password": pwd, "typeid": typeid, "image": b64}
    result = json.loads(requests.post("http://api.ttshitu.com/predict", json=data).text)
    if result['success']:
        return result["data"]["result"]
    else:
        return result["message"]
    return ""

总的代码

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
from PIL import Image
import base64
import json
import requests
import random

def base64_api(uname, pwd, img, typeid):
    with open(img, 'rb') as f:
        base64_data = base64.b64encode(f.read())
        b64 = base64_data.decode()
    data = {"username": uname, "password": pwd, "typeid": typeid, "image": b64}
    result = json.loads(requests.post("http://api.ttshitu.com/predict", json=data).text)
    if result['success']:
        return result["data"]["result"]
    else:
        return result["message"]
    return ""

def get_html(url,zhanghao,password):
    #打开谷歌浏览器
    wd = webdriver.Chrome()
    #发起请求
    wd.get(url)
    time.sleep(5)
    #输入账号
    zhh = wd.find_element_by_xpath('//*[@id="loginname"]')
    zhh.send_keys(Keys.CONTROL, 'a')
    zhh.send_keys(zhanghao)
    time.sleep(1)
    #输入密码
    pw = wd.find_element_by_xpath('//*[@type="password"]')
    pw.send_keys(Keys.CONTROL, 'a')
    pw.send_keys(password)
    time.sleep(1)
    # 点击登录按钮
    login_button = wd.find_element_by_xpath('//*[@node-type="normal_form"]//*[@class="info_list login_btn"]')
    login_button.click()
    time.sleep(1)
    try:
        x_button = wd.find_element_by_xpath('//*[@class="main_txt"]/a')
        x_button.click()
        time.sleep(2)
    except BaseException:
        pass
    element = wd.find_element_by_xpath('//*[@node-type="verifycode_image"]') # 定位验证码图片
    filename = str(random.random()) + '.png'  # 生成随机文件名
    element.screenshot(filename)
    im = Image.open(filename)
    # 转换为灰度图像
    im = im.convert('L')
    im.save(filename)
    # 使用打码平台中提供的方法识别验证码并返回验证码
    data = base64_api('mark123','123456',filename,'3')
    wd.find_element_by_xpath('//*[@action-data="text=请输入验证码"]').send_keys(data)  # 输入验证码
    # 点击登录按钮
    login_button = wd.find_element_by_xpath('//*[@node-type="normal_form"]//*[@class="info_list login_btn"]')
    login_button.click()
    time.sleep(1)
    time.sleep(1000)  # 为了看清登录，等待1000秒
    return 0

if __name__ == '__main__':
    url = 'https://weibo.com/'
    zhanghao = '你自己的账号'
    password = '你自己的密码'
    get_html(url,zhanghao,password)

第二种

这个和上面差不多，我就不分析了。
首先是获取并保存cookie的代码。唯一要注意的是其中的time.sleep(15)，这个15秒是selenium打开网页后你需要扫码的时长，如果15秒不够你扫码登录的操作的话，可以按自己需求延长。

from selenium import webdriver
from time import sleep
import json
if __name__ == '__main__':
  driver = webdriver.Chrome()
  driver.maximize_window()
  driver.get('https://weibo.com/login.php')
  sleep(6)
  # driver.switch_to.frame(driver.find_element_by_xpath('//*[@id="anony-reg-new"]/div/div[1]/iframe')) # 切换浏览器标签定位的作用域
  driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[1]/div/a[2]').click()
  sleep(15)
  dictCookies = driver.get_cookies() # 获取list的cookies
  jsonCookies = json.dumps(dictCookies) # 转换成字符串保存
  with open('微博_cookies.txt', 'w') as f:
    f.write(jsonCookies)
  print('cookies保存成功！')
  driver.close()
  driver.quit()

然后就是读取保存好的cookie登录微博的代码。

from selenium import webdriver
from time import sleep
import json


def browser_initial():
    browser = webdriver.Chrome()
    browser.maximize_window()
    browser.get(
        'https://weibo.com/login.php')
    return browser


def log_csdn(browser):
    with open('微博_cookies.txt', 'r', encoding='utf8') as f:
        listCookies = json.loads(f.read())

    # 往browser里添加cookies
    for cookie in listCookies:
        cookie_dict = {
            'domain': '.weibo.com',
            'name': cookie.get('name'),
            'value': cookie.get('value'),
            "expires": '',
            'path': '/',
            'httpOnly': False,
            'HostOnly': False,
            'Secure': False
        }
        browser.add_cookie(cookie_dict)
    sleep(3)
    browser.refresh()  # 刷新网页,cookies才成功

if __name__ == "__main__":
    browser = browser_initial()
    log_csdn(browser)

总结

第一种方法是不实用的，第二种方法的cookie具有时效性，失效后就要重新获取更新，也不太实用。听其他大佬说还有其他的接口可以单光使用账号密码登录，但我还未去尝试。

皮猪

关注

11
点赞
踩
48

收藏

觉得还不错? 一键收藏
打赏
2
评论
微博自动化登录(selenium+cookie)

文章目录前言一、首先分析网页二、编写代码总结前言本次呢我讲俩种方法，一种是单纯的selenium自动化登录，这种方法经测试不太行。因为单纯使用账号密码登录微博现在行不通，还需要手机验证码。另一种是使用selenium加cookie的方法登录，经测试很有效。只需要在第一次使用手机扫码登录后用selenium保存cookie，后续就可以用之前保存的cookie登录微博了。编写代码1.分析网页首先是第一种方法。还是老套路，右键点击检查，因为selenium操作的是渲染后的网页，所以直接看e
复制链接

扫一扫