【爬虫】学习：模拟登录

最新推荐文章于 2024-05-02 12:00:51 发布

myaijarvis

最新推荐文章于 2024-05-02 12:00:51 发布

阅读量413

点赞数

分类专栏： Python 爬虫文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/Jruo911/article/details/122181555

版权

Python 爬虫专栏收录该内容

10 篇文章 4 订阅

订阅专栏

python3网络爬虫开发实战第二版——10

基础

Cookie

GitHub
requests内置的Session对象会自动处理cookie。
使用Session对象发出请求之后，requests会自动保存每次请求后设置的Cookie（Set-Cookie字段），并在下次请求时带上它。

import requests
from urllib.parse import urljoin

BASE_URL = 'https://login2.scrape.center/'
LOGIN_URL = urljoin(BASE_URL, '/login')
INDEX_URL = urljoin(BASE_URL, '/page/1')
USERNAME = 'admin'
PASSWORD = 'admin'

session = requests.Session()

response_login = session.post(LOGIN_URL, data={
    'username': USERNAME,
    'password': PASSWORD
})

cookies = session.cookies
print('Cookies', cookies)

response_index = session.get(INDEX_URL)
print('Response Status', response_index.status_code)
print('Response URL', response_index.url)

我们以前常见做法是先请求一次，然后把获取其cookie，下一次请求时带上cookie

response_login = requests.post(LOGIN_URL, data={
    'username': USERNAME,
    'password': PASSWORD
}, allow_redirects=False)

cookies = response_login.cookies
print('Cookies', cookies)

response_index = requests.get(INDEX_URL, cookies=cookies)

Selenium

先用Selenium模拟浏览器操作登录，然后获取Cookie，再把其交给requests

from urllib.parse import urljoin
from selenium import webdriver
import requests
import time

BASE_URL = 'https://login2.scrape.center/'
LOGIN_URL = urljoin(BASE_URL, '/login')
INDEX_URL = urljoin(BASE_URL, '/page/1')
USERNAME = 'admin'
PASSWORD = 'admin'

browser = webdriver.Chrome()
browser.get(BASE_URL)
browser.find_element_by_css_selector('input[name="username"]').send_keys(USERNAME)
browser.find_element_by_css_selector('input[name="password"]').send_keys(PASSWORD)
browser.find_element_by_css_selector('input[type="submit"]').click()
time.sleep(10)

# get cookies from selenium
cookies = browser.get_cookies()
print('Cookies', cookies)
# Cookies [{'domain': 'login2.scrape.center', 'expiry': 1641823562, 'httpOnly': True, 'name': 'sessionid', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': 'g0cto8m5redlmc0nqjxm3hacfvrmryfg'}]
browser.close()

# set cookies to requests
# 遍历所以Cookie，并把其依次设置到Session的cookie属性上
session = requests.Session()
for cookie in cookies:
    session.cookies.set(cookie['name'], cookie['value'])

response_index = session.get(INDEX_URL)
print('Response Status', response_index.status_code)
print('Response URL', response_index.url)

JWT

GitHub

登录后获取JWT信息，以后每次请求在其请求头上带上即可

import requests
from urllib.parse import urljoin

BASE_URL = 'https://login3.scrape.center/'
LOGIN_URL = urljoin(BASE_URL, '/api/login')
INDEX_URL = urljoin(BASE_URL, '/api/book')
USERNAME = 'admin'
PASSWORD = 'admin'

response_login = requests.post(LOGIN_URL, json={
    'username': USERNAME,
    'password': PASSWORD
})
data = response_login.json() 
# {'token': 'eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ1c2VyX2lkIjoxLCJ1c2VybmFtZSI6ImFkbWluIiwiZXhwIjoxNjQwNjU3NTY1LCJlbWFpbCI6ImFkbWluQGFkbWluLmNvbSIsIm9yaWdfaWF0IjoxNjQwNjE0MzY1fQ.T3siY51turgx0qZW72a8w1kLv8BvhjVUkiOnzh0XCG4'}
print('Response JSON', data)
jwt = data.get('token')
print('JWT', jwt)

headers = {
    'Authorization': f'jwt {jwt}'
}
response_index = requests.get(INDEX_URL, params={
    'limit': 18,
    'offset': 0
}, headers=headers)
print('Response Status', response_index.status_code)
print('Response URL', response_index.url)
print('Response Data', response_index.json())

myaijarvis

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【爬虫】学习：模拟登录

python3网络爬虫开发实战第二版——10基础CookieGitHubrequests内置的Session对象会自动处理cookie。使用Session对象发出请求之后，requests会自动保存每次请求后设置的Cookie（Set-Cookie字段），并在下次请求时带上它。import requestsfrom urllib.parse import urljoinBASE_URL = 'https://login2.scrape.center/'LOGIN_URL = urljoi
复制链接

扫一扫