项目名/settings.py(配置文件):
# -*- coding: utf-8 -*-
BOT_NAME = '项目名' # 项目名
SPIDER_MODULES = ['项目名.spiders'] # 爬虫模块的位置
NEWSPIDER_MODULE = '项目名.spiders'
# 定义常量 (数据库地址)。 可以在代码中通过spider对象获取,也可以直接导入使用
MONGO_HOST = "localhost"
LOG_LEVEL = "WARNING" # 设置日志等级。 默认debug级别
LOG_FILE = "./log.log" # 设置日志保存位置
USER_AGENT = 'xxx' # 设置请求头,模拟浏览器
# 服从 robots.txt 协议
ROBOTSTXT_OBEY = False
# 最大并发请求数 (默认16)
# CONCURRENT_REQUESTS = 32
# 从同一网站下载连续页面之前应等待的时间 (默认0)。 可用于限制爬取速度
# DOWNLOAD_DELAY = 3
# 下面两个配置项 配合DOWNLOAD_DELAY使用
# CONCURRENT_REQUESTS_PER_DOMAIN = 16 # 同一个域名的最大并发请求数
# CONCURRENT_REQUESTS_PER_IP = 16 # 同一个IP的最大并发请求数
# 禁用cookie (默认开启cookie)
# COOKIES_ENABLED = False
# COOKIES_DEBUG = True # 开启cookie的调试信息
# 禁用 Telnet Console (默认开启)
# TELNETCONSOLE_ENABLED = F