scrapy
Byfar_
这个作者很懒,什么都没留下…
展开
-
mysql(scrapy)
# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the ITEM_PIPELINES setting# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.htmlimport pymysql,datetimeclass XwProjectPipeline(object): d原创 2022-05-18 15:48:39 · 247 阅读 · 0 评论 -
scrapyd源码流程
转载 2019-12-06 16:36:33 · 295 阅读 · 0 评论 -
【Python爬虫错误】'scrapyd-deploy' 不是内部或外部命令,也不是可运行的程序或批处理文件
【Python爬虫错误】‘scrapyd-deploy’ 不是内部或外部命令,也不是可运行的程序或批处理文件 环境:python3.7在部署分布式的时候,安装好scrapyd-client之后,运行scrapyd-deploy出现 “'scrapyd-deploy' 不是内部或外部命令,也不是可运行的程序或...转载 2019-12-02 12:06:09 · 823 阅读 · 1 评论 -
爬虫 翻页
第一种 列表推导式url = ['http://q.10jqka.com.cn/index/index/board/all/field/zdf/order/desc/page/{}/ajax/1/'.format(i) for i in range(1, 4)]for j in url: print(j)第二种 for循环for i in range(1, 4): ...原创 2019-10-21 11:26:08 · 960 阅读 · 0 评论 -
scrapy 的随机 UserAgent
下载中间件的使用方法:process_request(self, request, spider): 当每个request通过下载中间件时,该方法被调用。 返回None值:继续请求 返回Response对象:不再请求,把response返回给引擎 返回Request对象:把request对象交给引擎 -> 调度器进行后续的请求 process_response(sel...原创 2018-12-09 16:36:38 · 602 阅读 · 0 评论 -
Scrapy使用代理
1.打开middlewares.py文件2.添加代理类import base64""" 阿布云代理配置"""proxy_server = "http://http-dyn.abuyun.com:9020"proxy_user = "HEWGR9329K68Z11D"proxy_pass = "ACEBFFCDFE62615F"proxy_auth = "Basic " + ...原创 2019-09-02 20:39:08 · 353 阅读 · 0 评论 -
scrapy管道的一些方法
import jsonclass SuningPipeline(object): def open_spider(self, spider): if spider.name == 'book': self.f = open('book.jsonlines', 'w', encoding='utf8') def process_ite...原创 2019-09-18 21:59:57 · 385 阅读 · 0 评论