爬虫相关
爬虫相关
Zhao1iang
WPS-高级后端开发
展开
-
Crawlab上传爬虫
1、安装 CLI 命令行工具,确保用的 Python 版本是 3.6 以上pip install crawlab-sdk2、登录获取Tokencrawlab login -u admin -a http://localhost:8070/api3、上传爬虫cd /path/to/spiderDemocrawlab upload原创 2020-05-22 20:37:58 · 900 阅读 · 0 评论 -
Crawlab主从分布式部署
一、生产环境上我们不希望仅仅是简单部署,我们可以在多台服务器上分别部署Crawlab然后连接公共的MongoDB及Redis。这时候就需要让Mongo及Redis独立出来,避免耦合启动。二、 Docker-Compose主节点docker-compose.ymlversion: '3.3'services: master: image: tikazyq/crawlab:latest container_name: master environment: CR原创 2020-06-01 14:04:04 · 1150 阅读 · 7 评论 -
Crawlab安装GDAL
Crawlab安装GDAL1、进入crawlab项目容器(是一个ubuntu虚拟机)docker exec -it 3b057485c508(id) /bin/bash2、本身不带sudo,执行命令安装sudoapt-get updateapt-get install sudo3、使用apt-get安装gdal-configsudo apt-get install libgdal-dev4、使用sudo安装gdalsudo apt-get install software-properti原创 2020-05-22 19:37:25 · 219 阅读 · 0 评论 -
Crawlab-Docker简单部署
1、首先确保Docker可用2、如果是 Mac 或者 Linux 用户,创建/etc/docker/daemon.json文件内容: { "registry-mirrors": ["https://registry.docker-cn.com"]}3、 Crawlab 的镜像下载docker pull tikazyq/crawlab:latest4、安装docker-compose(python3)pip install docker-compose5、自定义docker-com原创 2020-05-22 20:35:39 · 1029 阅读 · 0 评论 -
Scrapy-redis设置初始请求带参数
Scrapy-redis设置初始请求带参数官方demo中只有默认的get请求, 但是我们面对的网站多种多样, 有时候起始url就是post请求, 或者业务需要在get请求中加入很多后期要用到的参数。源码class Request(object_ref): def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None,原创 2020-12-15 15:52:19 · 591 阅读 · 1 评论 -
Scrapy同时启动多个爬虫
Scrapy多爬虫并行问题:当遇到针对同一请求网站URL时,根据不同的参数不想多次新建scrapy项目。1、在sprider同级目录下建立commons文件夹(自定义)2、新建crawlall.pyfrom scrapy.commands import ScrapyCommandfrom scrapy.utils.project import get_project_settingsclass Command(ScrapyCommand): requires_project = T原创 2020-10-28 19:55:47 · 492 阅读 · 2 评论