爬虫
临咸鱼
错失太易
展开
-
Scrapy 反爬手段
主要策略:动态设置 user agent禁用 cookies设置延迟下载使用 Google cache(国内网络的影响所以放弃)使用 IP 地址池(Tor project、 VPN 和代理 IP )使用 Crawlera(另开一篇详细讲)1.创建 middlewares.pyscrapy 代理ip, user agent 的切换都是通过 DOWNLOADER_MIDDLEWAR...原创 2019-12-20 01:39:29 · 215 阅读 · 0 评论 -
Scrapy个人总结
scrapy的主要组成:spider.pyitems.pymiddlewares.pypipelines.pysettings.pyspiders.py 负责的是对网页,对链接如何处理的部分。# -*- coding: utf-8 -*-from scrapy import Spider, Request # 这里改写了引用方便点from ..items import Ba...原创 2019-05-09 18:06:17 · 198 阅读 · 0 评论 -
scrapy-redis 分布式的部署
环境配置 scrapy-redis先码好原本爬虫,主机要开启 redis-server, config 文件的 bindip = 127.0.0.1 加 # 注释,protected mode 改为 no。spider 的 配置,其他照旧。from scrapy_redis.spiders import RedisCrawlSpider# 继承引进的 RedisCrawlSpider...原创 2019-07-12 09:35:27 · 155 阅读 · 0 评论 -
scrapy 利用 itempipelines 下载文件
步骤 01 首先创建 Scrapy 项目,取名为 matplotlib_examples,再使用 scrapy genspider 命令创建 Spider:$ scrapy startproject matplotlib_examples$ cd matplotlib_examples$ scrapy genspider examples matplotlib.org步骤 02 在配置文...原创 2019-12-20 00:55:12 · 240 阅读 · 0 评论