- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 重写第一个爬虫程序
第一个爬虫程序是利用scrapy命令创建好之后,直接编写代码实现的。文章见 [ scrapy 从第一个爬虫开始],本文将利用item,pipeline以及文件保存重写此程序,从而使大家更好的理解。 一、首先是image.py程序 # -*- coding: utf-8 -*- import scrapy from image.items import ImageItem from scrapy.h...
2018-09-30 22:31:58 245
原创 scrapy框架解析
1 Scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 2 Scrapy框架图 Scrapy数据流是由执行的核心引擎(engine)控制,流程是这样的: 1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请求调度程序,并准备对下一次的请求进行抓取。 3、爬虫调度器返回下一个请求给爬虫引擎。 4、...
2018-09-27 22:49:47 461 1
原创 scrapy 从第一个爬虫开始
有时候学习的误区在于一直在看文档,一直在看基本的语法,从而导致很长时间不能看到学习的成果而灰心丧气;与其如此,不如拿实际的需求来学习,遇到不会的去查即可,当把需求完成后涉及的点再加以总结,效果会非常好,而且有成就感,正向激励自己。 本文讨论的是一个小爬虫,自己需要编写的代码很少,就可以实现一个卡通图片网站(https://xkcd.com)的所有图片的抓取。 1 本地安装(win环境) pytho...
2018-09-26 22:23:28 534 1
原创 ElasticSearch入门资料整理
本次所整理的资料是个人在window下安装、配置、测试学习时参考的,汇总如下: elasticsearch介绍及应用场景分析 https://blog.csdn.net/qq_15175765/article/details/78861808 https://blog.csdn.net/laoyang360/article/details/52244917 elasticsearch入门文...
2018-09-23 19:28:34 267
原创 TDD, ATDD and BDD
几种常见的敏捷开发模式(Agile Software Development)介绍 TDD Test-Driven Development(测试驱动开发),从测试的角度来检验整个项目。大概的流程是先针对每个功能点抽象出接口代码,然后编写单元测试代码,接下来实现接口,运行单元测试代码,循环此过程,直到整个单元测试都通过 ATDD Acceptance Test-Driven Development ...
2018-09-22 09:08:55 683
原创 Apache配置多域名多目录访问
虚拟主机配置,分为域名和ip两种,本文只介绍前者的配置方法。 一、在httpd.conf中增加监听端口 目录 apache/conf/httpd.conf # apache监听端口 #Listen 12.34.56.78:80 Listen 80 Listen 88 二、增加vhost配置 目录 apache/conf/extra/httpd-vhosts.conf 增加配置项 <Virt...
2018-09-20 20:53:33 1625
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人