爬虫的启动可以带参数启动,带自己配置的参数文件,比如指定端口号,username,password,代理等
注意:把配置文件conf.json放在项目文件所在环境的pyspider文件夹下,然后打开命令行cmd,
输入命令:pyspider -c conf.json
配置文件代码:
{
"message_queue": "redis://127.0.0.1:6379/15",
"webui": {
"port": 5001,
"need-auth":true,
"username":"Jarvis",
"password":"123456"
}
}
message_queue 采用redis数据库第15号库
port:为自己设置的端口号
need-auth为是否需要验证即打开爬虫的网页后是否需要设置用户名和密码
启动后文件夹下会有一个data的文件夹,默认爬取数据就保存在data中
也可以使用一些高级的设置保存到自己的数据库中
详情见:http://docs.pyspider.org/en/latest/Deployment/