Scrapy
python数据采集
IoneFine
这个作者很懒,什么都没留下…
展开
-
Django ORM与Scrapy集成
django orm与scrapy集成:https://github.com/scrapy-plugins/scrapy-djangoitem原创 2019-02-10 00:04:51 · 1419 阅读 · 2 评论 -
Scrapy常用命令使用
更新中…(Py3_spider) Soufan_crawl> scrapyScrapy 1.5.2 - no active projectUsage: scrapy <command> [options] [args]Available commands: bench Run quick benchmark test fetch ...原创 2019-03-17 10:29:33 · 216 阅读 · 0 评论 -
通过download middleware随机更换user-agent,fake-useragent的使用
官方文档:Downloader Middleware https://docs.scrapy.org/en/latest/topics/downloader-middleware.html通过download middleware随机更换user-agentUser Agent1中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器...原创 2019-03-17 16:17:30 · 607 阅读 · 0 评论 -
Scrapy中scrapy.loader.processors、scrapy.contrib.loader.processor的区别
区别就是scrapy.contrib.loader.processor模块导入了scrapy.loader.processors中的所有内容:Lib/site-packages/scrapy/loader/processors.py"""This module provides some commonly used processors for Item Loaders.See docu...原创 2019-03-12 17:43:16 · 740 阅读 · 0 评论 -
Scrapy突破反爬虫的限制之自动限速、Cookie禁用
自动限速scrapy限速,settings.py中设置scrapy官方文档: https://doc.scrapy.org/en/latest/topics/autothrottle.htmlCookie禁用cookie禁用,对于那些不需要登录就能够访问到的网站。settings.py中设置COOKIES_ENABLED = False将禁用cookie。不同的spider设置不同的c...原创 2019-03-17 18:53:06 · 1983 阅读 · 0 评论 -
Scrapy爬虫模板之CrawlSpider
通过scrapy genspider -l查看Scrapy拥有的爬虫模板:&amp;amp;amp;amp;amp;amp;gt; scrapy genspider --listAvailable templates: basic crawl csvfeed xmlfeed&amp;amp;amp;amp;amp;amp;gt; 1、创建名为spider_pjt3_lagou的爬虫项目:&amp;amp;am原创 2019-03-26 08:40:19 · 597 阅读 · 0 评论 -
Scrapyd使用介绍
Scrapy GitHub: https://github.com/scrapy/scrapyd文档: https://scrapyd.readthedocs.io/en/stable/什么是scrapyd?Scrapyd is a service for running Scrapy spiders.It allows you to deploy your Scrapy project...原创 2019-04-04 23:32:33 · 755 阅读 · 0 评论 -
scrapy-redis 采集失败如何将url移出DupeFilter
问题:采集页面时由于网络原因可能返回为空内容,但这条采集记录被记录在redis的DupeFilter中,导致不能二次采集。请问:在spider 的编写过程中如何将采集失败的url手动移出redis的xx:DupeFilter。引入from scrapy.utils.request import request_fingerprint在spiders中,手工判断response是否满足抓取...转载 2019-04-01 18:13:49 · 1431 阅读 · 2 评论 -
使用Python命令发布Scrapy项目——popen使用
前提条件安装scrapyd和scrapyd-client确保scrapyd成功启动命令行方式发布首先回顾一下怎样在命令行中发布scrapy项目:scrapyd-deploy <target> -p <project> [--version <version>]采用Python命令发布的代码如下:class ScrapydClient(obje...原创 2019-04-22 17:24:33 · 434 阅读 · 0 评论 -
Selenium集成到Scrapy中
1. 新建知乎爬虫:&amp;gt; SpiderProject\spider_pjt1&amp;gt;scrapy genspider zhihu www.zhihu.com编写zhihu spider的页面解析函数parse(),由于此函数被要求返回一个可迭代对象,所以这里直接返回一个空列表作为测试。# -*- coding: utf-8 -*-# @Author : One Fine# @Fi...原创 2019-03-07 18:23:57 · 770 阅读 · 0 评论 -
Scrapy Middleware用法简介
一、Downloader Middleware 的用法Downloader Middleware即下载中间件,它是处于Scrapy的Request和Response之间的处理模块。Scheduler从队列中拿出一个Request发送给Downloader执行下载,这个过程会经过Downloader Middleware的处理。另外,当Downloader将Request下载完成得到Respo...原创 2019-03-07 09:28:51 · 2938 阅读 · 1 评论 -
scrapy中Item Loader机制
scrapy item loader机制直接赋值取值的方式,会出现一下几个问题代码量一多,各种css和xpath选择器,充斥整个代码逻辑,没有规则,可读性差、不利于维护对于一个字段的预处理,不明确,也不应该出现在主逻辑中这时通过scrapy中的ItemLoader模块来处理。ItemLoader对象它是一个对象,它返回一个新项加载器到填充给定项目。它有以下类:class scra...原创 2019-05-21 13:42:10 · 1240 阅读 · 1 评论 -
Scrapy项目创建
环境:Python3.x + Scrapy升级pip(可忽略):C:\Users\xxx&gt;python -m pip install --upgrade pip # 升级pipCollecting pip Using cached https://files.pythonhosted.org/packages/46/dc/7fd5df840efb3e56c8b4f768793a2...原创 2019-01-30 09:51:49 · 266 阅读 · 0 评论 -
scrapy之crawls的暂停与重启
Jobs: pausing and resuming crawls1Sometimes, for big sites, it’s desirable to pause crawls and be able to resume them later.Scrapy supports this functionality out of the box by providing the followi...原创 2019-03-08 10:39:00 · 933 阅读 · 0 评论 -
Selector提取数据1:XPath选择器
scrapy-xpath选择器原创 2019-02-02 00:54:53 · 5252 阅读 · 1 评论 -
Selector提取数据2:CSS选择器
网页提取之-CSS选择器原创 2019-02-02 00:57:31 · 529 阅读 · 0 评论 -
Scrapy Shell的使用
Scrapy shell是一个交互终端在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦...原创 2019-03-09 10:49:31 · 1672 阅读 · 0 评论 -
scrapy爬取知乎
1、新建&amp;amp;amp;gt; scrapy startproject spider_pjt2_zhihu&amp;amp;amp;gt; cd spider_pjt2_zhihu&amp;amp;amp;gt; scrapy genspider zhihu www.zhihu.com原创 2019-03-09 10:59:59 · 467 阅读 · 0 评论 -
Scrapy框架--Requests对象
详解:https://www.cnblogs.com/thunderLL/p/6551641.html参考:Scrapy框架–Requests对象 https://www.cnblogs.com/thunderLL/p/6551641.html原创 2019-03-07 00:01:48 · 214 阅读 · 0 评论 -
Scrapyd API
Scrapyd官方文档: https://scrapyd.readthedocs.io/en/latest/api.html原创 2019-04-23 10:03:18 · 585 阅读 · 0 评论