Scrapy
hs947463167
这个作者很懒,什么都没留下…
展开
-
基于Python的-scrapyd部署爬虫流程
1. 打开命令窗口,新建一个虚拟环境:Mkvirtualenv --python=D:\python36\python.exe 虚拟环境名2. 安装scrapy项目中所需要的包:例如pip install scrapy如果缺少win32 要进行pip install pywin32安装3. 安装scrapyd服务:pip install scrapyd4. 输入scrapyd,启动服务, 在浏览...原创 2018-03-27 14:30:20 · 768 阅读 · 0 评论 -
基于python的-scrapy数据流
# -*- coding:utf-8 -*-"""Scrapy中的数据流由执行引擎控制,其过程如下: 1. 引擎打开一个网站(open a domain),找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。 2. 引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。 3. 引擎向调度器请求下...原创 2018-03-27 14:31:17 · 623 阅读 · 0 评论 -
基于python的-scrapy框架的基本用法
# -*- coding:utf-8 -*-# spiders 该文件夹专门存放爬虫文件# items.py 用于存储爬虫的数据# middlewares.py 用于处理爬虫前的请求和响应,例如设置headers# pipelines.py 管道文件,在存储爬虫数据以前,会先穿过管道# settings.py 全局爬虫的配置文件,一般用于设置反反爬虫相关措施,数据库配置# scrap...原创 2018-03-06 20:39:11 · 221 阅读 · 0 评论 -
基于python的-scrapy框架使用步骤
# -*- coding:utf-8 -*-# scrapy的基本用法# 1. 通过命令创建项目# scrapy startproject 项目名称# 2. 用pycharm打开项目# 3. 通过命令创建爬虫# scrapy genspider 爬虫名称 域名# 4. 配置settings# robots_obey=False# Download_delay=0.5# ...原创 2018-03-06 20:40:01 · 217 阅读 · 0 评论 -
Scrapy--设置代理ip
本次使用的代理Ip是蘑菇代理,数据库是redis1.settings配置"""REDIS 配置链接"""REDIS_URL = "redis://127.0.0.1:6379"RETRY_TIMES = 22.写入工具类import requestsimport jsonimport timeimport redisfrom 项目名.settings import REDIS_URL...原创 2018-06-01 14:29:36 · 4237 阅读 · 2 评论