python3爬虫总结(模拟滑块验证，自动登录)

最新推荐文章于 2024-07-24 16:36:32 发布

RubyLinT

最新推荐文章于 2024-07-24 16:36:32 发布

阅读量1.2k

点赞数

分类专栏： python 文章标签： selenium urllib BeautifulSoup mitmproxy 淘宝

本文链接：https://blog.csdn.net/RubyLinT/article/details/90896504

版权

本文总结了Python3爬虫过程中如何处理模拟滑块验证和自动登录，涉及urllib、BeautifulSoup、Selenium以及mitmproxy等库。首先通过urllib请求网页，然后使用BeautifulSoup解析内容。对于需要登录的页面，利用Selenium的ChromeOptions进行模拟登录，并提醒注意ChromeDriver版本与浏览器匹配。此外，还提到了mitmproxy在抓包和代理中的应用。

摘要由CSDN通过智能技术生成

1.应用python库

from urllib import request

import ssl

from bs4 import BeautifulSoup

import sys

import io

import json

import time

import random

from selenium import webdriver

from selenium.webdriver import ActionChains

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait

from selenium.common.exceptions import TimeoutException, NoSuchElementException

from selenium.webdriver.chrome.options import Options

from selenium.webdriver.common.keys import Keys

from mitmproxy import ctx

2.主要思路

1.首先用urllib的request请求要爬取的页面：

  # 请求
  req = request.Request(url)
  # 设置cookie
  file = open('cookie.txt', 'r+', encoding='utf-8')  
  cookie_str = file.read()
  file.close()
  # print('cookie_str',cookie_str)
  req.add_header('cookie', cookie_str)
  req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
  AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.372