Python Day4 爬虫-selenium滚动和常见反爬

本文介绍了Python爬虫中使用Selenium进行页面滚动的技巧,以及如何应对常见的反爬策略。首先分析了知乎网站的数据结构,然后详细讲解了如何利用Selenium实现页面自动滚动,以及如何通过requests库结合登录后的cookie进行自动登录。此外,还探讨了selenium获取和使用cookie的方法,并讨论了requests库在使用代理IP进行爬取时的实际应用。
摘要由CSDN通过智能技术生成

Day4 selenium滚动和常见fanpa

1. zhi网页面数据分析

'''
Author:KathAmy
Date:2022/8/16  9:15
键盘敲烂,共同进步!
'''
from selenium.webdriver import Chrome
from time import sleep
from bs4 import BeautifulSoup


def analysis_data(html: str):  # 分析数据
    soup = BeautifulSoup(html, 'lxml')
    title = soup.select_one('.wx-tit>h1')
    if title:
        title = title.text

    author = soup.select_one('#authorpart a')
    if author:
        author = author.text

    organization = soup.select_one('.wx-tit>h3:nth-child(3) a')
    if organization:
        organization = organization.text

    print(title)
    print(author)
    print(organization)
    print('-----------------------------------华丽的分割线-----------------------------------')


def get_paper(key_word='数据分析'):
    # 1.创建浏览器打开中国知网,输入搜索关键字
    global b
    b = Chrome()
    b.get('https://www.cnki.net/')
    b.find_element_by_id('txt_SearchText').send_keys(f'{
     key_word}\n')
    sleep(1)

    # 2.获取搜索结果
    for x in range(5):
        # 获取一页的数据
        all_a = b.find_elements_by_css_selector('.result-table-list .name>a'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值