from selenium.webdriver import Chrome
# 1.创建浏览器对象
b = Chrome()# 2.打开网页(需要爬那个页面的数据,就打开那个页面对应的网页地址)
b.get('https://movie.douban.com/top250?start=0&filter=')# 3.获取网页源代码(注意:不管以什么样的方式更新了界面内容,page_source的内容也会更新)print(b.page_source)# 获取豆瓣电影top250的网页源代码print('--------------------------------华丽的分割线-------------------------------------')
b.get('https://www.baidu.com')print(b.page_source)input('结束:')
selenium获取多页数据翻页的方法:
from selenium.webdriver import Chrome
# 1. selenium获取标签"""
浏览器对象.b.find_element(获取方式, 数据) - 返回符合条件的第一个标签,结果是标签对象
浏览器对象.b.find_elements(获取方式, 数据) - 返回符合条件的所有标签,结果是列表,列表中的元素是标签对象
1)获取方式:
By.ID - 通过ID属性值获取标签
By.CLASS_NAME - 通过class属性值获取标签
By.CSS_SELECTOR - 通过css选择器获取标签
By.LINK_TEXT - 通过a标签的标签内容获取标签
By.PARTIAL_LINK_TEXT - 通过a标签的标签内容获取标签
"""# 2. 操作标签"""
1)输入框输入内容:输入框对应的标签.send_keys(内容)
2)点击标签:标签对象.click()
"""from selenium.webdriver.common.by import By
b = Chrome()
b.get('https://www.jd.com/')# 获取id属性值为key的标签
search = b.find_element(By.ID,'key')
search.send_keys('电脑\n')# 获取标签内容为"便宜包邮"的a标签
a1 = b.find_element(By.LINK_TEXT,'便宜包邮')# a1.click()# 获取标签内容中包含'口好'的a标签
a2 = b.find_element(By.PARTIAL_LINK_TEXT,'口好')# a2.click()input(':')# _________________________旧方法________________________# 1.找到不同页的地址的变化规律,利用循环实现多页数据的请求# b = Chrome()## for x in range(0, 76, 25):# b.get(f'https://movie.douban.com/top250?start={x}&filter=')# print(b.page_source)# print('--------------------------------华丽的分割线-------------------------------------')## input()# ======================================方法2========================================# 2.点击翻页按钮,刷新页面内容,在刷新后获取网页源代码# from selenium.webdriver.common.by import By## b = Chrome()# b.get('https://movie.douban.com/top250?start=0&filter=')## for _ in range(5):# print(b.page_source)# # 点击下一页按钮# next = b.find_element(By.CLASS_NAME, 'next')# # 点击按钮# next.click()
用代码控制浏览器滚动
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time
b = Chrome()
b.get('https://search.jd.com/Search?keyword=%E7%94%B5%E9%A5%AD%E9%94%85&enc=utf-8&wq=%E7%94%B5%E9%A5%AD%E9%94%85&pvid=058303d3cd58499fb8f5f3459afd4d6b')
time.sleep(2)# js中页面鼓动的代码:window.scrollBy(x方向的偏移量, y方向的偏移量)# b.execute_script('window.scrollBy(0, 8000)')for x inrange(10):
b.execute_script('window.scrollBy(0, 800)')
time.sleep(1)
time.sleep(2)
result = b.find_elements(By.CSS_SELECTOR,'#J_goodsList>ul>li')print(len(result))input('结束:')