爬取frame内的多条链接

最新推荐文章于 2021-08-24 09:57:19 发布

兰roness

最新推荐文章于 2021-08-24 09:57:19 发布

阅读量803

点赞数

分类专栏：学习Python遇到的洼文章标签： python selenium

本文链接：https://blog.csdn.net/lanroness/article/details/78261240

版权

本文介绍了如何使用Python的Selenium库爬取嵌套在frame内的链接。任务是爬取Go语言标准库的资料，通过分析网页结构，重点讲述了获取链接的href属性、下载HTML页面并保存、以及利用Selenium进行frame切换的操作。尽管文件命名可以进一步优化，但目前的解决方案已能完成基本的爬取工作。

摘要由CSDN通过智能技术生成

Python爬网页功能强大是众所周知，一直想试试，却一直没有决心做。最近收到一个任务，爬取一些go的资料。
要爬的网址是Go语言标准库，首先分析下需要用到的知识：

获取链接地址，即获取href属性；
从网址上get到html页面，并保存到文件中；
由于链接集在一个frame内，因此需要用到selenium的切换frame。

代码如下：

#_*_coding:utf8 _*_
import requests
from bs4 import BeautifulSoup
from selenium import webdriver

if __name__ == "__main__":
    browser_driver = webdriver.Chrome()

    browser_driver.get("https://studygolang.com/pkgdoc")
    links = []
    titles = []
    browser_driver.switch_to.fr