angbini7012-CSDN博客

转载 python 可迭代对象，迭代器，生成器的区别及使用

可迭代对象可迭代对象类型：list，dict，tuple，str，set，deque等如何判断一个对象是否是可迭代对象，可以通过dir()方法看它里面有没有__iter__方法，如果有这个方法就是可迭代对象。迭代器对象上述的可迭代对象类型都不是迭代器，那什么是迭代器?迭代器对象相对可迭代对象无非就是多了个__next__方法。所以迭代器是在可迭代的基础上实现的。要创建一...

2019-09-20 14:57:00 183

转载一、初识asyncio协程

初识asyncio协程一、基本概念要想了解学习协程相关知识要先对以下几个概念先行了解：阻塞阻塞状态是指程序未得到某所需计算资源时的挂起状态，简单说就是程序在等待某个操作未执行完前无法执行其他操作。非阻塞非阻塞状态是指在等待某项操作执行完前可以继续运行其他操作，也就是不会被阻塞。同步不同程序单元为了完成某项任务，在执行过程中以某种通信方式保证协调一致，假如...

2019-09-20 11:35:00 215

转载 python多进程，进程池，数据共享，进程通信，分布式进程

一、操作系统中相关进程的知识 Unix/Linux操作系统提供了一个fork()系统调用，它非常特殊。普通的函数调用，调用一次，返回一次，但是fork()调用一次，返回两次，因为操作系统自动把当前进程（称为父进程）复制了一份（称为子进程），然后，分别在父进程和子进程内返回。子进程永远返回0，而父进程返回子进程的ID。这样做的理由是，一个父进程可以fork出很多子进程，所以，父...

2019-09-19 19:27:00 244

转载 Scrapy的Request和Response对象

一、Request 发送一个请求，参数如下：url ：request对象发送请求的urlcallback ：在下载器下载完相应的数据后执行的回调函数method ：请求方法，默认为getheaders ：请求头，固定的—>settings文件中，非固定的在请求时加上即可meta ：比较常用，用于不同请求间传递数据dot_filter ：表示不由调度器过滤，执行重复请求...

2019-09-17 16:24:00 156

转载 Scrapy下载器中间件实现随机请求头和代理ip

一、设置随机请求头class UAMiddleWare(object): UA_LIST = [ 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', ...

2019-09-17 16:19:00 252

转载 Scrapy下载图片及自定义分类下载路径

配置下载图片的流程如下在items中定义两个属性，image_urls 和images 。image_urls是用来存储需要下载的图片url链接，列表类型；当文件下载完成后会把相关下载信息存入images属性中，如下载的url和图片校验码等；在配置文件settings中配置IMAGES_STORE用来指定下载的路径；启动pipeline，在settings中的ITEM_PIPE...

2019-09-17 16:11:00 447

转载提前关闭Scrapy爬虫的设置

Scrapy的CloseSpider扩展会在满足条件时自动终止爬虫程序。可以设置CLOSESPIDER_TIMEOUT（秒）、CLOSESPIDER_ITEMCOUNT、CLOSESPIDER_PAGECOUNT、CLOSESPIDER_ERRORCOUNT分别代表在指定时间过后、在抓取了指定数目的Item之后、在收到了指定数目的响应之后、在发生了指定数目的错误之后就终止爬虫程序。通常情...

2019-09-17 15:38:00 211

转载 Scrapy框架Crawler模板爬虫

1、创建一个CrawlerSpiderscrapy genspider -t crawl wx_spider 'wxapp-union.com'#导入规则from scrapy.spiders import Rule,CrawlSpiderfrom scrapy.linkextractors import LinkExtractor2、Rule规则class scrapy.s...

2019-09-17 15:33:00 198

转载 Redis数据库在ubuntu16.04下的安装

1、安装sudo apt-get install redis-server2、启动sudo service redis-server start3、查看ps aux|grep redis4、停止sudo service redis-server stop5、卸载sudo apt-get purge --auto-remove redis-server转载于:htt...

2019-09-17 15:22:00 93

转载 Redis常用操作

Redis简介Redis是完全开源免费的高性能Key-Value数据库，有以下几个特点：Redis支持数据持久化，可以将内存中的数据保存至磁盘中，重启可以再次加载进行使用。Redis不仅仅支持简单的Key-Value类型的额数据，同时还提供list，set，zset（有序集合），hash等数据结构的存储。Redis支持数据的备份，即master-slave模式的数据备份。R...

2019-09-17 15:15:00 91

angbini7012的博客