今天我们要爬取的网站是
虎扑球员排行榜
我们使用pandas中的read_html函数读取虎扑体育网页中的球员数据表
废话不多说,直接上代码
import pandas as pd
import numpy as n
# 读取网页中的数据表
table = []
for i in range(1,7):
table.append(pd.read_html('https://nba.hupu.com/stats/players/pts/%d' %i)[0])
# 所有数据纵向合并为数据框
players = pd.concat(table)
# 变量重命名
columns=['排名','球员','球队','得分','命中-出手','命中率','命中-三分','三分命中率','命中-罚球','罚球命中率','场次','上场时间']
players.columns=columns
players.drop(0,inplace=True)
print(players)
结果如下
然后我们把结果写入本地csv
players.to_csv(r"C:\Users\MI\Desktop\球员信息.csv",encoding='utf_8_sig')
csv中的数据如图
本次一共获得282名球员的历史投篮记录,这些记录包括球员姓名、所属球队、得分、各命中率等信息