搞定python多线程和多进程

1 概念梳理: 1.1 线程1.1.1 什么是线程线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。一个线程是一个execution context(执行上下文)...

2017-07-10 13:14:11

阅读数:2215

评论数:1

给Scrapy添加代理

给请求添加代理有2种方式,第一种重写start_request方法,第二种是添加download中间件。下面分别介绍这2种方式。 一.重写start_request方法 比较简单,只是在meta中加了一个proxy代理。然后可以测试了,那么问题来了,我怎么知道我的请求是否带上了代理呢?可以...

2017-07-07 17:10:29

阅读数:4632

评论数:0

Scrapy-redis改造scrapy实现分布式多进程爬取

一.基本原理: Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代...

2017-06-21 16:54:44

阅读数:7024

评论数:0

scrapy-splash爬取JS生成的动态页面

利用scrapy-splash爬取JS生成的动态页面 目前,为了加速页面的加载速度,页面的很多部分都是用JS生成的,而对于用scrapy爬虫来说就是一个很大的问题,因为scrapy没有JS engine,所以爬取的都是静态页面,对于JS生成的动态页面都无法获得。解决方案:利用第三方中间件来提供J...

2017-06-06 10:14:29

阅读数:590

评论数:0

CentOS 6.5安装LAMP,并开启MySQL远程访问

准备: 1、配置防火墙,开启80端口、3306端口vi /etc/sysconfig/iptables -A INPUT -m state --state NEW -m tcp -p tcp --dport 80 -j ACCEPT #允许80端口通过防火墙 -A INPUT -m state ...

2017-06-01 16:15:30

阅读数:528

评论数:0

centos安装MySQLdb,及相关问题解决方法

centos环境Python的MySQLdb安装问题稍多点,整理一下,也方便自己以后查看。1.#sudo yum install gcc-c++ (使用sudo yum install gcc-c++时会自动安装/升级gcc及其他依赖的包。) 2.#wget http://sourceforge....

2017-06-01 13:36:49

阅读数:276

评论数:0

Centos装完MySQL模块后还是报 No module named MySQLdb错误

我yum,安装MySQL-python模块很简单: # yum install MySQL-python -y 可是执行Scrapy爬虫时依然报 No module named MySQLdb经过一番搜索终于找到问题: 没有安装Python连接MySQL的模块# easy_install ...

2017-05-24 17:24:54

阅读数:1847

评论数:0

Centos下装Python+Scrapy

我的版本centos6.5,其他版本没试过,应该差不多。 首先确保电脑能上网喔!安下面步骤直接复制粘贴就行。1.#su – root 2.#yum install gcc zlib-devel bzip2-devel openssl-devel ncurses-devel libffi-deve...

2017-05-24 17:03:47

阅读数:500

评论数:0

用scrapy写爬虫 显示 Filtered offsite request to 错误.

爬电源网公司信息,无法爬取。 查看控制台发现报如下错误: DEBUG: Filtered offsite request to ‘product.dianyuan.com’: 果断上网百度 ,找到答案 。官方对这个的解释,是你要request的地址和allow_domain里面的冲突...

2017-05-20 11:45:17

阅读数:276

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭