准备工作:
创建Scrapy项目,采用终端命令行方式进行
scrapy startproject nbaSpider
创建scrapy启动文件run_spider
创建命令行(nbaplayer为爬虫名称)
from scrapy import cmdline
cmdline.execute('scrapy crawl nbaplayer'.split()) # 启动爬虫
开始编写脚本
导入第三方库
import re
import scrapy #导入模块
设置参数
class NBAPlayersSpider(scrapy.Spider):
name = "nbaplayer" # 爬虫名字
allowed_domain = ['stat-nba.com'] # 爬虫域名
start_urls = ['http://www.stat-nba.com/player/1.html'] # 起始地址
创建单个方法
def parse(self, response, **kwargs):
# 单个球员数据
item = NbaspiderItem()
player_name = response.xpath('//*[@id="background"]/div[