爬取frame内的多条链接

本文介绍了如何使用Python的Selenium库爬取嵌套在frame内的链接。任务是爬取Go语言标准库的资料,通过分析网页结构,重点讲述了获取链接的href属性、下载HTML页面并保存、以及利用Selenium进行frame切换的操作。尽管文件命名可以进一步优化,但目前的解决方案已能完成基本的爬取工作。
摘要由CSDN通过智能技术生成

Python爬网页功能强大是众所周知,一直想试试,却一直没有决心做。最近收到一个任务,爬取一些go的资料。
要爬的网址是Go语言标准库,首先分析下需要用到的知识:

  • 获取链接地址,即获取href属性;
  • 从网址上get到html页面,并保存到文件中;
  • 由于链接集在一个frame内,因此需要用到selenium的切换frame。

代码如下:

#_*_coding:utf8 _*_
import requests
from bs4 import BeautifulSoup
from selenium import webdriver

if __name__ == "__main__":
    browser_driver = webdriver.Chrome()

    browser_driver.get("https://studygolang.com/pkgdoc")
    links = []
    titles = []
    browser_driver.switch_to.fr
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值