python 反爬取数据

最新推荐文章于 2023-12-02 19:00:00 发布

AI算法网奇

最新推荐文章于 2023-12-02 19:00:00 发布

阅读量2.5k

点赞数

分类专栏： python宝典

本文链接：https://blog.csdn.net/jacke121/article/details/89685039

版权

python宝典专栏收录该内容

1024 篇文章 370 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了如何使用Python进行网络爬虫时，应对各种网站的反爬取措施，包括设置代理、模拟浏览器行为、处理验证码和登录验证等技术。

摘要由CSDN通过智能技术生成



# coding:utf-8
from io import BytesIO

from PIL import Image
from requests.exceptions import RequestException
from bs4 import BeautifulSoup
from selenium import webdriver

import requests

import re

# 获取动态cookies
def get_cookie():
    options = webdriver.ChromeOptions()
    options.add_argument('headless')
    driver = webdriver.Chrome(chrome_options=options)
    url = "http://baijiahao.baidu.com/s?id=1600903094868655563&wfr=spider&for=pc/"
    driver.get(url)
    # 获取cookie列表
    cookie = driver.get_cookies()
    driver.close()
    print("cookie",cookie[0]['value'])
    return cookie[0]['value']


# 获取网页详情页
def get_page_detail(url):
    headers =

了解本专栏