爬虫爬取指定范围内容的方法

应用背景:

你找到了一个网页,日期被放在了button元素的文本当中,你想获取两个日期之间的内容。

import requests
from bs4 import BeautifulSoup

url = 'xxxxxxxxxx'

links_data = {}

# 发送请求
response = requests.get(url)

# 解析网页内容
soup = BeautifulSoup(response.content, 'html.parser')

# 找到第一个 button 元素
first_button_element = soup.find('button', class_='position-absolute top-0 start-50 translate-middle btn btn-sm btn-danger rounded-pill')

# 找到第二个 button 元素
second_button_element = first_button_element.find_next('button', class_='position-absolute top-0 start-50 translate-middle btn btn-sm btn-danger rounded-pill')

# 查找这两个 button 元素之间的所有 a 元素
a_elements = []

current_element = first_button_element.find_next()

while current_element and current_element != second_button_element:
    if current_element.name == 'a' and 'link-light' in current_element.get('class', []):
        a_elements.append(current_element)
    current_element = current_element.find_next()

# 处理每个 a 元素
for a_element in a_elements:
    # 获取 href 和文本内容
    href = a_element.get('href', '')
    text_content = a_element.text.strip()

    # 打印或存储 href 和文本内容
    print(f"href: {href}, text: {text_content}")

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值