自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shengjk1的博客

自得其乐,乐此不疲,码字

  • 博客(5)
  • 资源 (2)
  • 收藏
  • 关注

原创 scrapy之其他

1.日志 $为注释 $LOG_ENABLED default: TrueLOG_ENABLED = True LOG_LEVEL = ‘INFO’ $LOG_FILE = ‘./logs/booksisbn.log’2.失败重试$为注释 RETRY_ENABLED=True RetrywhenproxiesfailRETRYTIMES=3Retry when proxies fail

2017-11-22 14:15:10 339

原创 scrapy 传参

当爬虫上线时难免会希望动态传参,下面跟着小二一起学传参吧,喽喽喽!直接上代码: 自己写的spiderclass MWMSpider(scrapy.Spider): name = 'mwm_flowers_spider' def __init__(self, **kwargs): self.city_name = kwargs['city_name']

2017-11-22 14:01:54 676

原创 scrapy之ip池

反爬策略有很多,最常用的也就是ip池,下面让我们一起跟着小省开始ip池之旅吧直接上代码: 由于我们的ip池是自己维护在数据库中的,所以会有查库这一说#!/usr/bin/env python# -*- coding: utf-8 -*-# Create by shengjk1 on 2017/11/6from screptile import poolfrom utilspider.dp

2017-11-22 13:25:45 5196

原创 scrapy之user-agent池

常见的反爬策略有很多,今天我们一起跟随小省开始,ua的反爬之旅,咳咳咳,敲黑板喽!直接上代码: 首先建立中间件#!/usr/bin/env python# -*- coding: utf-8 -*-# Create by shengjk1 on 2017/11/8import randomfrom scrapy.contrib.downloadermiddleware.useragent

2017-11-22 13:16:38 4550

原创 scrapy之原理

最近小二换了一家新公司,刚入公司,让小二做了一些爬虫方面的工作,经过小二的调研,最后决定用scraly来进行实现。虽然scrapy的中文资料不少,但成体系的很少,小二就在此总结一下,以供后来者提供方便scrapy原理  Scrapy Engine 引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。 详细内容查看下面的数据流(Data Flow)部分。调度器(

2017-11-22 13:09:52 681

sql2003标准 sql2003标准

sql2003标准 sql2003标准sql2003标准sql2003标准sql2003标准sql2003标准

2018-05-23

Java数据结构和算法

Java数据结构和算法,包括源码,以及演示程序,Java数据结构和算法,包括源码,以及演示程序,Java数据结构和算法,包括源码,以及演示程序

2017-09-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除