selenium

最新推荐文章于 2024-07-14 17:35:55 发布

饭桶009

最新推荐文章于 2024-07-14 17:35:55 发布

阅读量46

点赞数

文章标签： selenium chrome python

本文链接：https://blog.csdn.net/2301_76501924/article/details/129885741

版权

selenium

通过selenium打开网页

from selenium.webdriver import Chrome

# 1.创建浏览器对象
b = Chrome()

# 2.打开网页(需要爬那个页面的数据，就打开那个页面对应的网页地址)
b.get('https://movie.douban.com/top250?start=0&filter=')

# 3.获取网页源代码(注意：不管以什么样的方式更新了界面内容，page_source的内容也会更新)
print(b.page_source)        # 获取豆瓣电影top250的网页源代码

print('--------------------------------华丽的分割线-------------------------------------')

b.get('https://www.baidu.com')

print(b.page_source)

input('结束:')

selenium获取多页数据翻页的方法：

from selenium.webdriver import Chrome
# 1. selenium获取标签
"""
浏览器对象.b.find_element(获取方式, 数据)      -   返回符合条件的第一个标签，结果是标签对象
浏览器对象.b.find_elements(获取方式, 数据)     -   返回符合条件的所有标签，结果是列表，列表中的元素是标签对象

1)获取方式:
By.ID       -   通过ID属性值获取标签
By.CLASS_NAME   -   通过class属性值获取标签
By.CSS_SELECTOR -   通过css选择器获取标签
By.LINK_TEXT    -   通过a标签的标签内容获取标签
By.PARTIAL_LINK_TEXT    -   通过a标签的标签内容获取标签
"""

# 2. 操作标签
"""
1）输入框输入内容：输入框对应的标签.send_keys(内容)
2）点击标签：标签对象.click()
"""

from selenium.webdriver.common.by import By

b = Chrome()
b.get('https://www.jd.com/')

# 获取id属性值为key的标签
search = b.find_element(By.ID, 'key')
search.send_keys('电脑\n')

# 获取标签内容为"便宜包邮"的a标签
a1 = b.find_element(By.LINK_TEXT, '便宜包邮')
# a1.click()

# 获取标签内容中包含'口好'的a标签
a2 = b.find_element(By.PARTIAL_LINK_TEXT, '口好')
# a2.click()
input(':')

# _________________________旧方法________________________
# 1.找到不同页的地址的变化规律，利用循环实现多页数据的请求
# b = Chrome()
#
# for x in range(0, 76, 25):
#     b.get(f'https://movie.douban.com/top250?start={x}&filter=')
#     print(b.page_source)
#     print('--------------------------------华丽的分割线-------------------------------------')
#
# input()

# ======================================方法2========================================
# 2.点击翻页按钮，刷新页面内容，在刷新后获取网页源代码
# from selenium.webdriver.common.by import By
#
# b = Chrome()
# b.get('https://movie.douban.com/top250?start=0&filter=')
#
# for _ in range(5):
#     print(b.page_source)
#     # 点击下一页按钮
#     next = b.find_element(By.CLASS_NAME, 'next')
#     # 点击按钮
#     next.click()

用代码控制浏览器滚动

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time

b = Chrome()
b.get('https://search.jd.com/Search?keyword=%E7%94%B5%E9%A5%AD%E9%94%85&enc=utf-8&wq=%E7%94%B5%E9%A5%AD%E9%94%85&pvid=058303d3cd58499fb8f5f3459afd4d6b')
time.sleep(2)
# js中页面鼓动的代码：window.scrollBy(x方向的偏移量, y方向的偏移量)
# b.execute_script('window.scrollBy(0, 8000)')
for x in range(10):
    b.execute_script('window.scrollBy(0, 800)')
    time.sleep(1)

time.sleep(2)
result = b.find_elements(By.CSS_SELECTOR, '#J_goodsList>ul>li')
print(len(result))

input('结束:')