day4-selenium

day4-selenium

一、selenium的基本操作

  1. 创建浏览器对象

    from selenium.webdiver import Chrome
    b = Chrome()
    
  2. 打开网页

    b.get('https://movie.douban.com/top250?start=0&filter=')
    
  3. 获取网页源代码

    print(b.page_source)
    

二、selenium的翻页操作

selenium获取多页数据翻页的方法:

  1. 找到不同页的地址的变化规律,利用循环实现多页数据的请求

    b = Chrome()
    for x in range(0, 76, 25):
        b.get(f'https://movie.douban.com/top250?start={x}&filter=')
        print(b.page_source)
        print('--------------------------------华丽的分割线-------------------------------------')
    
     input()
    
  2. 点击翻页按钮,刷新页面内容,在刷新后获取网页源代码

from selenium.webdriver.common.by import By

b = Chrome()
b.get('https://movie.douban.com/top250?start=0&filter=')

for i in range(5):
    print(b.page_source)
     # 点击下一页按钮
    next = b.find_element(By.CLASS_NAME, 'next')
     # 点击按钮
     next.click()

方法2涉及的知识点:

  1. selenium获取标签

    浏览器对象.b.find_element(获取方式, 数据)      -   返回符合条件的第一个标签,结果是标签对象
    浏览器对象.b.find_elements(获取方式, 数据)     -   返回符合条件的所有标签,结果是列表,列表中的元素是标签对象
    
    获取方式:
    By.ID       -   通过ID属性值获取标签
    By.CLASS_NAME   -   通过class属性值获取标签
    By.CSS_SELECTOR -   通过css选择器获取标签
    By.LINK_TEXT    -   通过a标签的标签内容获取标签
    By.PARTIAL_LINK_TEXT    -   通过a标签的标签内容获取标签
    
  2. 操作标签

    1)输入框输入内容:输入框对应的标签.send_keys(内容)

    2)点击标签:标签对象.click()

    from selenium.webdriver.common.by import By
    
    b = Chrome()
    b.get('https://www.jd.com/')
    
    # 获取id属性值为key的标签
    search = b.find_element(By.ID, 'key')
    search.send_keys('电脑\n')
    
    # 获取标签内容为"便宜包邮"的a标签
    a1 = b.find_element(By.LINK_TEXT, '便宜包邮')
    # a1.click()
    
    # 获取标签内容中包含'口好'的a标签
    a2 = b.find_element(By.PARTIAL_LINK_TEXT, '口好')
    # a2.click()
    
    input(':')
    

三、控制页面滚动

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time

b = Chrome()
b.get('https://search.jd.com/Search?keyword=%E7%94%B5%E9%A5%AD%E9%94%85&enc=utf-8&wq=%E7%94%B5%E9%A5%AD%E9%94%85&pvid=058303d3cd58499fb8f5f3459afd4d6b')
time.sleep(2)

# =====用代码控制浏览器滚动=====
# js中页面鼓动的代码:window.scrollBy(x方向的偏移量, y方向的偏移量)
# b.execute_script('window.scrollBy(0, 8000)')
for x in range(10):
    b.execute_script('window.scrollBy(0, 800)')
    time.sleep(1)

time.sleep(2)
result = b.find_elements(By.CSS_SELECTOR, '#J_goodsList>ul>li')
print(len(result))

input('结束:')

四、知网练习

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time
from bs4 import BeautifulSoup
# 1.创建浏览器
b = Chrome()
# 2.打开中国知网
b.get('https://www.cnki.net/')
# 3.获取输入框,输入"数据分析"
search = b.find_element(By.ID,'txt_SearchText')
search.send_keys('数据分析\n')




def get_summary():
    # 4.获取搜索结果所有论文的标题标签

    for i in range(3):
        tables = b.find_elements(By.CLASS_NAME, 'fz14')
        for j in tables:
            # 5.点击一个搜索结果
            j.click()
            time.sleep(1)
            # 6.切换选项卡,让浏览器对象指向详情页
            # b.window_handles   # 获取当前所有的选项卡
            b.switch_to.window(b.window_handles[-1])

            # 7.获取详情页数据
            # source = b.page_source

            # 8.解析数据
            soup = BeautifulSoup(b.page_source, 'lxml')
            summary = soup.select_one('#ChDivSummary').text
            print(summary)
            # 关闭当前窗口
            b.close()
            # 将选项卡切换回第一个页面
            b.switch_to.window(b.window_handles[0])

        print('========================一页完成==================================')

        b.find_element(By.ID, 'PageNext').click()
        time.sleep(3)

if __name__ == '__main__':
    get_summary()




五、贝壳作业

import requests
from bs4 import BeautifulSoup
from re import sub, findall
import csv


def get_one_page(page):
    # 1.获取网页数据
    url = f'https://cd.zu.ke.com/zufang/pg{page}/#contentList'
    response = requests.get(url)

    # 2.解析数据
    soup = BeautifulSoup(response.text, 'lxml')
    # 获取每个房屋信息对应的div
    div_list = soup.select('.content__list--item')
    for div in div_list:
        name = div.select_one('.twoline').text.strip()
        info = div.select_one('.content__list--item--des').text.strip()
        info = sub(r'\s+', '', info)
        area = findall(r'\d+\.\d+㎡', info)[0]
        house_type = findall(r'\d+室\d+厅\d+卫', info)[0]

        # address = findall(r'精选/(.+?-.+?)/|^(.+?)/', info)[0]
        # address = address[0] if address[0] else address[1]
        # print(address)

        address = div.select('.content__list--item--des>a')
        new_address = '-'.join([x.text for x in address])

        price = div.select_one('.content__list--item-price').text
        # print(name, new_address, price, area, house_type)
        w1.writerow([name, price, area, house_type, new_address])
    print('------------------------一页获取完成--------------------')


if __name__ == '__main__':
    w1 = csv.writer(open('files/贝壳租房.csv', 'w', encoding='utf-8', newline=''))
    w1.writerow(['房屋', '价格', '面积', '户型', '地址'])

    for x in range(1, 11):
        get_one_page(x)


# 思考:统计不同区域每平米平均单价、不同户型的平均租金
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值