Python爬网页功能强大是众所周知,一直想试试,却一直没有决心做。最近收到一个任务,爬取一些go的资料。
要爬的网址是Go语言标准库,首先分析下需要用到的知识:
- 获取链接地址,即获取href属性;
- 从网址上get到html页面,并保存到文件中;
- 由于链接集在一个frame内,因此需要用到selenium的切换frame。
代码如下:
#_*_coding:utf8 _*_
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
if __name__ == "__main__":
browser_driver = webdriver.Chrome()
browser_driver.get("https://studygolang.com/pkgdoc")
links = []
titles = []
browser_driver.switch_to.fr