1. 建立爬虫工程:scrapy startproject name
2. 定义item item是爬虫的数据模型的(item.py)
3. 新建spider:scrapy genspider ${spiderName} ${domain}
4.编写爬虫文件:主要是start_urls和def parse解析方法
5. 在settings.py中修改USER_AGENT项,防止403错误,建议代码:
import random
import random
user_agent_list = [