DAY4-selenium

最新推荐文章于 2024-08-13 10:38:40 发布

跟着感觉走78

最新推荐文章于 2024-08-13 10:38:40 发布

阅读量66

点赞数

文章标签： selenium python 测试工具

本文链接：https://blog.csdn.net/o9887568546/article/details/129886649

版权

DAY4-selenium

一.selenium基本操作

创建浏览器对象
```
b = Chrome()
```
打开网页（打开提供数据的网页，需要爬那个网页，就打开那个网址）
```
b.get('https://movie.douban.com/top250?start=0&filter=')
```
获取网页源代码（注意：不管以什么方式更新了界面内容，page_source的内容也会更新）
```
print(b.page_source)     # 获取豆瓣电影top250的网页源代码
```

二.selenium的翻页

selenium获取多页数据翻页的方法

找到不同页的地址的变化规律，利用循环实现多页数据的请求

b = Chrome
for x in range(0,266,25):
    b.get(f'https://movie.douban.com/top250?start={x}&filter=')
    print(b.page_source)

点击翻页按钮，刷新网页内容，在刷新后再获取网页源代码

from selenium.webdriver.common.by import By
b = Chrome
b.get('https://movie.douban.com/top250?start=0&filter=')

for _ in range(5):
    print(b.page_source)
#   点击下一页按钮
    next1 = b.find_element(By.CLASS_NAME,'next')
#   点击按钮
    next1.click()     # 标签对象.click() 是点击按钮的操作

selenium翻页涉及到的知识点

selenium获取标签
浏览器对象.b.find_eLement(获取方式,数据) - 返回符合条件第一个标签对象，结果是标签对象
浏览器对象.b.find_eLements(获取方式,数据) - 返回符合条件的所有标签，结果是列表，列表中的元素是标签对象
获取方式

BY.ID - 通过ID属性值获取标签
BY.CLASS_NAME - 通过class属性值获取标签
By.CSS_SELECTOR - 通过css选择器获取标签
BY.LINK_TEXT - 通过a标签的标签内容获取标签
BY.PARTIAL_LINK_TEXT - 获取a标签的标签内容获取标签（部分内容也可以获取）

操作标签

输入框输入内容：输入框对应的标签.send_keys(内容\n) \n就是回车
点击标签：标签对象.click

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
b = Chrome()
b.get('https://www.douban.com/')

# 获取id属性值为username的标签
search = b.find_element(By.ID,'username')

# 获取标签内容为“豆瓣读书”的a标签
a1 = b.find_element(By.LINK_TEXT,"豆瓣读书")
a1.click()

# 获取标签内容包含“剧里”的a标签
a2 = b.find_element(By.PARTIAL_LINK_TEXT,"剧里")
a2.click()

案例：中国知网获取数据分析论文的摘要

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time
from bs4 import BeautifulSoup

def analysis_data(html):
    soup = BeautifulSoup(html, 'lxml')
    digest = soup.select_one('#ChDivSummary').text
    print(digest)

def get_net_data():
    # 1.创建浏览器
    b = Chrome()
    # 2.打开中国知网
    b.get('https://www.cnki.net/')
    # 3.获取输入框，输入"数据分析"
    search = b.find_element(By.ID, 'txt_SearchText')
    search.send_keys('数据分析\n')
    time.sleep(1)
    for _ in range(3):
        # 4.获取搜索结果所有论文的标题标签
        titles = b.find_elements(By.CLASS_NAME, 'fz14')
        for x in titles:
            # 点击一个搜索结果
            x.click()
            time.sleep(1)
            # 切换选项卡，让浏览器对象指向详情页
            b.switch_to.window(b.window_handles[-1])
            # 获取详情页数据, 解析数据
            # print(b.page_source)
            analysis_data(b.page_source)
            # 关闭当前窗口
            b.close()
            # 将选项卡切换回第一个页面
            b.switch_to.window(b.window_handles[0])
        print('--------------------一页数据获取完成--------------------------')
        b.find_element(By.ID, 'PageNext').click()
        time.sleep(4) 
        
if __name__ == '__main__':
    get_net_data()

三.页面滚动

用代码控制浏览器滚动

js中页面鼓动的代码: window.scrollBy(x方向的偏移量，y方向的偏移量)

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time

b = Chrome()
b.get('https://search.jd.com/Search?keyword=%E7%94%B5%E9%A5%AD%E9%94%85&enc=utf-8&wq=%E7%94%B5%E9%A5%AD%E9%94%85&pvid=058303d3cd58499fb8f5f3459afd4d6b')
time.sleep(2)

for x in range(10):
    b.execute_script('window.scrollBy(0, 800)')
    time.sleep(1)

time.sleep(2)
result = b.find_elements(By.CSS_SELECTOR, '#J_goodsList>ul>li')
print(len(result))