day19-selenium

1. selenium基础

from selenium.webdriver import Chrome

# 1. 创建浏览器对象
b = Chrome()

# 2. 打开网页(需要爬哪个页面的数据,就打开那个页面对应的网页地址)
b.get(r'https://movie.douban.com/top250?start=0&filter=')

# 3. 获取网页源代码
print(b.page_source)

print('-------------------------------------分割线-------------------------------------')
b.get(r'https://www.baidu.com')

print(b.page_source)

2. selennium翻页

selenium获取多页数据翻页的方法

方法1:找到不同页地址的变化规律

from selenium.webdriver import Chrome

b = Chrome()

for x in range(0, 76, 25):
    b.get(rf'https://movie.douban.com/top250?start={x}&filter=')
    print(b.page_source)

方法2:点击翻页按钮,刷新页面内容,在刷新后获取网页源代码

from selenium.webdriver.common.by import By

b = Chrome()
b.get(r'https://cd.zu.ke.com/zufang')
#
for i in range(5):
    print(b.page_source)
    # # 找到下一页按钮
    next_page = b.find_element(By.CLASS_NAME, 'next')
    next_page.click()
    # 点击按钮
    next_page = b.find_element(By.CSS_SELECTOR, '.next')
    next_page.click()
方法2涉及的知识点
  1. selenium获取标签

    浏览器对象.find_element(获取方式) - 返回符合条件的第一个标签,结果是标签对象

    浏览器对象.find_elements(获取方式) - 返回所有符合条件的标签,结果是列表, 列表中的元素是标签对象

    获取方式:

    By.ID - 通过ID属性值获取标签

    By.CLASS_NAME - 通过class属性值获取标签

    By.CSS_SELECTOR - 通过css选择器获取标签

    By.INK_TEXT - 通过a标签的标签内容获取标签

    By.PARTIAL_LINK_TEXT - 通过a标签的标签内容获取标签

  2. 操作标签

    1. 输入框输入内容:输入框对应的标签.send_keys(内容)
    2. 点击标签:标签对象.click()
b = Chrome()
b.get(r'https://www.jd.com/')

# 获取id属性值为key的标签
search = b.find_element(By.ID, 'key')

# 获取标签内容为'便宜包邮'的a标签
a1 = b.find_element(By.LINK_TEXT, '便宜包邮')
# a1.click()

# 获取标签内容中包含'口好'的a标签
a2 = b.find_element(By.PARTIAL_LINK_TEXT, '口好')
a2.click()

3. 示例

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time

# 1. 创建浏览器
b = Chrome()

# 2. 打开中国知网
b.get(r'https://www.cnki.net/')

# 3. 获取输入框,输入'数据分析'
search = b.find_element(By.ID, 'txt_SearchText')
search.send_keys('数据分析\n')
time.sleep(1)

# 4.获取搜索结果所有论文的标题标签
titles = b.find_elements(By.CLASS_NAME, 'fz14')

# 点击第一个搜索结果
titles[0].click()
time.sleep(1)

# 切换选项卡,让浏览器对象指向详情页
b.switch_to.window(b.window_handles[-1])

# 获取详情页数据
print(b.page_source)

# 关闭当前窗口
b.close()

# 将选项卡切换回第一个页面
b.switch_to.window(b.window_handles[0])

titles[1].click()

4. 滚动

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time

b = Chrome()
b.get(r'https://search.jd.com/Search?keyword=%E7%94%B5%E9%A5%AD%E9%94%85&enc=utf-8&wq=%E7%94%B5%E9%A5%AD%E9%94%85&pvid=20d97125d00a409fb95d2735aeb0a7c6')
time.sleep(2)

# 用代码控制浏览器滚动
# js中页面滚动的代码:window.scrollBy(x方向的偏移量,y方向的偏移量)
# b.execute_script('window.scrollBy(0, 800)')
for x in range(10):
    b.execute_script('window.scrollBy(0, 800)')
    time.sleep(1)

time.sleep(2)
result = b.find_elements(By.CSS_SELECTOR, '#J_goodsList>ul>li>div')
for x in result:
    r = x.find_element(By.CLASS_NAME, 'p-price')
    print(r.text)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值