平时喜欢看球赛,十几年的詹密,五一放假(表示五一十天假期)在家闲着没事爬爬本赛季NBA球员常规赛数据。虎扑还是比较友好,页面比较简单,使用requests库和正则表达式就可以完成爬取了,哈哈。
首先看看要爬取哪些数据
找到数据在哪些标签里面
查看一共收录了几页的球员数据
代码
#spider程序
import re
import requests
from requests.exceptions import RequestException
from config import *
import pymongo
client = pymongo.MongoClient(MONGO_URL)
db = client[MONGO_DB]
#获取页面上html代码