2018年04月_耿子666

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 python-scrapy模拟登陆网站--登陆青果教务管理系统（三）

前言：第一篇，分析青果教务管理系统登陆模块，理清思路第二篇，使用常规的python常用库 requests来实现模拟登陆第三篇，使用scrapy来实现模拟登陆目的在于了解模拟登陆网站的要点和方法，了解http请求的一些知识。（1）scrapy模拟登陆依然按照上一篇的思路，我们编写代码即可。这里我就不啰嗦了。就放下spider 的代码# -*- coding: utf-8 -*-from _mys...

2018-04-30 22:21:51 12388 1

原创 python-scrapy模拟登陆网站--登陆青果教务管理系统（二）

前言：第一篇，分析青果教务管理系统登陆模块，理清思路第二篇，使用常规的python常用库 requests来实现模拟登陆第三篇，使用scrapy来实现模拟登陆目的在于了解模拟登陆网站的要点和方法，了解http请求的一些知识。（1）前期工作该篇最好参考下源码理解查看，源码在文章最后。上一篇我们说明了模拟登陆青果教务系统需要注意的问题。那么我们就先把，密码验证码的加密，保存验证码图片等先写一下测试一下...

2018-04-29 22:49:07 13351 1

原创 python-scrapy模拟登陆网站--登陆青果教务管理系统（一）

前言：第一篇，分析青果教务管理系统登陆模块，理清思路第二篇，使用常规的python常用库 requests来实现模拟登陆第三篇，使用scrapy来实现模拟登陆目的在于了解模拟登陆网站的要点和方法，了解http请求的一些知识。（1）本例子背景介绍青果教务管理系统是许多大学正在使用的教务管理系统，现在市面上我知道使用比较多的两个教务系统，一个是青果教务管理系统（大概几百所，我大概查了查），一个是正方教...

2018-04-28 21:38:53 31445 5

原创 scrapy-redis案例（三）爬取中国红娘相亲网站

前言：本案例将分为三篇。第一篇，使用scrapy框架来实现爬取中国红娘相亲网站。第二篇，使用scrapy-redis 简单的方式爬取中国红娘相亲网站。（使用redis存储数据，请求具有持续性，但不具备分布式）第三篇，使用scrapy-redis 分布式的方法爬取中国红娘相亲网站，并使用mysql将数据持久化。（1）修改第二篇的代码为scrapy-redis 分布式的代码废话不多说，从setting...

2018-04-24 21:45:20 12722

原创 scrapy-redis案例（二）爬取中国红娘相亲网站

前言：本案例将分为三篇。第一篇，使用scrapy框架来实现爬取中国红娘相亲网站。第二篇，使用scrapy-redis 简单的方式爬取中国红娘相亲网站。（使用redis存储数据，请求具有持续性，但不具备分布式）第三篇，使用scrapy-redis 分布式的方法爬取中国红娘相亲网站。（1）祭出scrapy-redis 的框架图scrapy-redis 只是在scrapy 的基础上增加了reids 的扩...

2018-04-23 20:06:47 11997

原创 scrapy-redis案例（一）爬取中国红娘相亲网站

前言：本案例将分为三篇。第一篇，使用scrapy框架来实现爬取中国红娘相亲网站。第二篇，使用scrapy-redis 简单的方式爬取中国红娘相亲网站。（使用redis存储数据，请求具有持续性，但不具备分布式）第三篇，使用scrapy-redis 分布式的方法爬取中国红娘相亲网站。（1）准备工作爬取网站地址：http://www.hongniang.com/index/search?sort=0&a...

2018-04-23 17:53:15 11934 1

原创使用腾讯云ubuntu 中mysql 出现的问题和解决方法

（1）[Err] 1055 - Expression #1 of ORDER BY...在执行insert语句之后，成功的插入了数据。但是报了一个异常：[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated column 'information_schem...

2018-04-23 16:41:14 12191

原创 python出现这个ImportError: No module named xxx错误

这个错误提示：导入失败：没有一个模块名称为 xxx说明你导入的模块是不存在你的环境中的。很有可能就是你导入模块的名称写错了。仔细检查一下导入的模块的名称是否正确。我这里就是把 scheduler 写成了 schedulers...

2018-04-22 20:44:18 11806

原创 Scrapy框架(八)下载中间件(Downloader Middlewares)的使用

（1）前言先祭出框架图：下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。作用：（1）引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent，设置代理等（2）在下载器完成将Response传递给引擎中，下载中间件可以对响应进行一系列处理。比如进行gzip解压等。我们主要使用下载中间件处理请求，一...

2018-04-16 23:34:22 17069

转载 python教程40G，从入门到精通免费领取

关注公告号，点击领取python即可获得。

2018-04-15 21:16:16 11369

原创 Scrapy 练习（一）下载壁纸图，使用ImagesPipeline

（1）准备工作我们准备爬取的网站：https://alpha.wallhaven.cc/random分析该网站图片的标签：这是一张图片的标签<html> <head></head> <body> <li class=""> <figure class="thumb thumb-316105 thumb-sfw

2018-04-13 23:53:33 11669