Day4-selenium基本用法

Day4-selenium基本用法

1. 打开chrome

from selenium.webdriver import Chrome

b = Chrome()
b.get('https://www.baidu.com')

2. selenium基本操作

from selenium.webdriver import Chrome

# 1. 创建浏览器对象
# 只需要创建一个浏览器对象,就可以打开很多个网页了
b = Chrome()        # 创建Chrome浏览器的一个对象

# 2. 打开网页(需要爬哪个页面的数据,就打开那个页面对应的网页地址)
b.get('https://cd.zu.ke.com/zufang')

# 3. 获取网页源代码(注意:不管以什么样的方式更新了界面内容,page_source的内容也会更新)
print(b.page_source)        # 获取贝壳租房的网页源代码

b.get('https://www.baidu.com')
print(b.page_source)        # 获取百度的网页源代码

# 4. 获取到想要的数据所在的网页源代码后,就可以用正则表达式或者bs4解析数据了

3. 翻页的处理

# selenium获取多页数据的时候,翻页的方法:

# ==================方法1 ==================
# 1. 找到不同页面的地址的变化规律,利用循环来翻页,实现多页数据的请求
b = Chrome()

for page in range(1, 3):
    b.get(rf'https://cd.zu.ke.com/zufang/pg{page}')
    print(b.page_source)
    print('----------------------- 华丽的分割线-----------------------')
# ==================方法2 ==================
# 1. 点击翻页按钮,刷新页面内容,在刷新后,获取网页源代码
from selenium.webdriver.common.by import By

b = Chrome()
b.get('https://cd.zu.ke.com/zufang')

for n in range(3):
    print(b.page_source)
    print('----------------------- 华丽的分割线-----------------------')
    # 获取下一页按钮:
    # 方法1:
    next_button = b.find_element(By.CLASS_NAME, 'next')
    # 方法2:
    next_button = b.find_element(By.CSS_SELECTOR, '.next')
    # 方法3:获取标签内容为'下页'的a标签
    next_button = b.find_element(By.LINK_TEXT, '下一页')
    # 点击下一页按钮
    next_button.click()
# ==================方法2涉及的知识点 ==================
# 1. selenium获取标签
"""
浏览器对象.find_element(获取方式, 数据)        -   返回符号条件的第一个标签,结果是标签对象
浏览器对象.find_elements(获取方式, 数据)       -   返回符号条件的所有标签,结果是列表,列表中的元素是标签对象

1) 获取方式:
By.ID   -   通过ID属性值获取标签,数据部分填标签的 id 属性值
By.CLASS_NAME   -   通过class属性值获取标签,数据部分填标签的 class 属性值
By.CSS_SELECTOR -   通过css选择器获取标签
By.LINK_TEXT    -   通过a标签的(完整的)标签内容获来取a标签,数据部分填a标签的完整标签内容
By.PARTIAL_LINK_TEXT    -   获取标签内容中包含'xxx'的a标签,数据部分填a标签的部分标签内容
"""

# 2. 操作标签
"""
1) 输入框输入内容: 输入框对应的标签对象.send_keys('想要输入的内容\n')
2) 点击标签: 点击按钮对应的标签对象.click()
"""

4. 页面滚动的处理

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time

b = Chrome()
b.get('https://search.jd.com/Search?keyword=%E7%94%B5%E9%A5%AD%E9%94%85&enc=utf-8&wq=%E7%94%B5%E9%A5%AD%E9%94%85&pvid=20d97125d00a409fb95d2735aeb0a7c6')
time.sleep(5)

# ============== 用代码控制浏览器滚动 ==============
# js中页面滚动的代码:  window.scrollBy(x方向的偏移量, y方向的偏移量)
# b.execute_script('scrollBy(0, 1000)')
for x in range(10):
    b.execute_script('scrollBy(0, 1000)')
    time.sleep(2)

time.sleep(5)
result = b.find_elements(By.CSS_SELECTOR, '#J_goodsList>ul>li')
print(len(result))


# 使用input()函数来阻止程序运行结束后,自动关闭浏览器
input('结束: ')

5. 练习

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time

# 1. 创建浏览器对象
b = Chrome()

# 2. 打开中国知网
b.get('https://www.cnki.net/')

# 3. 获取输入框标签对象,输入"数据分析"
search = b.find_element(By.ID, 'txt_SearchText')
search.send_keys('数据分析\n')
time.sleep(2)

# 4. 获取这一页搜索结果中所有论文的标题标签
titles = b.find_elements(By.CLASS_NAME, 'fz14')

# 点击第一个搜索结果
titles[0].click()
time.sleep(2)

# 切换选项卡,让浏览器对象指向这篇论文的详情页
# b.window_handles  -   获取浏览器对象的当前所有的选项卡,结果是一个列表,列表里面的元素是选项卡对象
b.switch_to.window(b.window_handles[-1])
# 获取详情页数据
print(b.page_source)

# 关闭当前窗口,即关闭该选项卡
b.close()

# 将选项卡切换回第一个页面
b.switch_to.window(b.window_handles[0])

# 点击第二个搜索结果
titles[1].click()
time.sleep(2)


input('结束: ')
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time

# 1. 创建浏览器对象
b = Chrome()

# 2. 打开中国知网
b.get('https://www.cnki.net/')

# 3. 获取输入框标签对象,输入"数据分析"
search = b.find_element(By.ID, 'txt_SearchText')
search.send_keys('数据分析\n')
time.sleep(5)

# 3. 获取当前页搜索结果中所有论文的标题标签
for page in range(1, 3):
    titles = b.find_elements(By.CLASS_NAME, 'fz14')
    n = 1
    for t in titles:
        t.click()
        time.sleep(5)
        # 切换选项卡,让浏览器对象指向详情页
        b.switch_to.window(b.window_handles[-1])
        summary = b.find_element(By.ID, 'ChDivSummary')
        print(f'第{page}页--第{n}篇论文')
        print(summary.text)
        print()
        # 关闭当前窗口
        b.close()
        # 将选项卡切换回第一个页面
        b.switch_to.window(b.window_handles[0])
        n += 1
    # 获取下一页按钮,并且点击
    next_button = b.find_element(By.ID, 'PageNext')
    next_button.click()
    # 进行鼠标点击、滚动操作后,一定要写等待: time.sleep(5) ,不然大概率会报错
    time.sleep(5)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值