![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
一起学python吧
你学废了吗
展开
-
记一次使用scrapy过程中遇到的问题之过滤问题
我们都知道,scrapy的默认过滤机制是过滤已经请求过的url地址,就是说如果某个url地址在发起新的请求前已经请求过了,那么scrapy默认会给我们过滤掉本次请求,如果想改变这种默认机制也是可以的,在发请求的时候假如参数dont_filter=True,这个值默认是False的,所以才会过滤掉已经请求过的地址,至于过滤的原理是基于什么,这里不做详细介绍,有兴趣的可以看下scrapy的源码介绍,是...原创 2020-04-17 16:24:25 · 693 阅读 · 0 评论 -
python scrapy爬虫防止ip被封的实现方案
主要策略: 动态设置user agent 禁用cookies 设置延迟下载 使用google cache 使用IP地址池(Tor Project、VPN和代理IP) 使用Crawlera 1、创建middlewares.py scrapy代理IP、user agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控制,下面我们创建middlewares.py文件。 imp...原创 2019-08-17 16:31:17 · 2056 阅读 · 2 评论 -
【scrapy ip代理池】如何解决ip被限制的问题
1、首先写一个脚本proxies.py 自动获取代理ip # *-* coding:utf-8 *-* import requests from bs4 import BeautifulSoup import lxml from multiprocessing import Process, Queue import random import json import time import r...原创 2019-08-17 16:34:12 · 1176 阅读 · 0 评论 -
python scrapy 之最简单使用
我使用的是linux系统,因为有其他的项目,特创建虚拟环境单独使用scrapy 1, 创建虚拟环境 mkvirtualenv scrapy_test(虚拟环境名称,自己随意命名) 2, 安装scrapy pip install scrapy 执行这一步不仅仅会安装scrapy包,而且会自动下载安装一些其他的依赖包,会稍微慢一点 3,安装好以后进入虚拟环境使用命令创建爬虫项目 scra...原创 2019-06-04 22:29:09 · 176 阅读 · 0 评论