爬虫有很多方法:urllib bs4美汤 lxml scrapy框架 等等
但这次我使用的是selenium
首先说一下selenium的优点: 自动化 可以模拟人为在输入框输入 模拟人为的点击button进行搜索 提交等功能 滚动屏幕 爬异步数据 等等…
# 先引入selenium
from selenium import webdriver
# 启动谷歌浏览器
driver=webdriver.Chrome()
# 要爬取的网址
driver.get(url='https://www.basketball-reference.com/leagues/NBA_2019.html')
# 隐式等待 等待页面数据加载
driver.implicitly_wait(10)
下图中 team 3p 3pa 2p 2pa 是本次要爬取的数据 这些数据是异步加载 如果不事先加载这些数据直接爬取是爬取不到的
# 爬取信息
listName=driver.find_elements_by_xpath('//*[@class="sortable stats_table