day19 selenium获取网页数据_selenium获取网页内容-CSDN博客

本文链接：https://blog.csdn.net/qq_63449560/article/details/128584233

本文介绍了如何利用selenium进行网页数据的抓取，包括创建浏览器对象、打开网页、获取网页源代码等步骤。实战部分讲解了爬取中国知网和滚动页面以获取完整数据。还探讨了反爬策略，如浏览器伪装、使用cookies自动登录，并提供了requests自动登录的流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

day19 selenium获取网页数据

prepare、试用

# 导包
import time
import requests
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup

# 尝试能用否
b = Chrome()
b.get('网址')
input()

一、selenium获取网页数据步骤：

1.创建浏览器对象
2.打开网页()
3.获取网页源代码

# 1
b = Chrome()

# 2
b.get('网址')

# 3
print(b.page_source)

二、selenium操作：

1.输入框中输入内容
获取输入框
浏览器对象.find_element(By.获取方式, 值):按照指定方式获取第一个满足条件的标签，返回一个标签值
浏览器对象.find_elements(By.获取方式, 值)：按照指定方式获取所有满足条件的标签，返回一个标签值
seleniu中常见的获取方式

名称	用法
By.ID	通过id属性值获取标签
By.CLASS_NAME	通过class属性值获取标签
By.CSS_SELECTOR	通过css选择器获取标签
By.XPATH	通过xpath路径获取标签
By.LINK_TEXT	通过超链接获取标签

2.点击内容
3.前进/后退/切换选项卡

# 1
# 创建谷歌浏览器，返回一个浏览器对象
b = Chrome()
# 通过浏览器对象打开指定网页
b.get('网址')
# 模拟人行为，等浏览器加载稳定
time.sleep(2)
# 获取输入框(获取标签)，id = kw
search1 = b.find_element(By.ID, 'kw')
# search2 = b.find_element(By.CSS_SELECTOR, '#kw')
# search3 = b.find_element(By.XPATH, '//input[@id="kw"]')


# 输入内容
# \n（回车搜索）
search1.send_keys('你好\n')
time.sleep(1)

search1.send_key