建立完爬虫项目之后,都会有如下的结构:
其中,settings.py文件是存放配置文件用的,初始化的settings文件,只有以下四个变量是默认定义好的,其他都是注释掉的。现在从上往下,看下每个变量的含义。
1)BOT_NAME:爬虫项目的名字,每个爬虫去爬取网站时,都会在user-agent带着这个爬虫名字去爬取网站。
2)SPIDER_MODULES、NEWSPIDER_MODULE:爬虫的路径
3)USER_AGENT:请求头,用来表示请求者的信息,比如会带着客户端的爬虫名称去访问爬虫网站,如果被识别到就会被拒绝,因此可以参考反爬虫的博文,动态伪装成浏览器,以便成功爬取