Scrapy 通过代理（Proxy）爬取外部网站

最新推荐文章于 2024-09-25 16:09:22 发布

软猫克鲁

最新推荐文章于 2024-09-25 16:09:22 发布

阅读量8.5k

点赞数

分类专栏： python 文章标签： python-scrapy 爬虫-python

本文链接：https://blog.csdn.net/lj0425/article/details/78852435

版权

本文介绍了如何在Scrapy中通过设置系统环境变量和创建中间件来实现使用代理爬取外部网站的方法，提供了从单一解决方案到适用于多个蜘蛛的通用策略。

摘要由CSDN通过智能技术生成

Scrapy 通过代理（Proxy）爬取外部网站

通常我们不需要特殊处理就能直接的访问WWW。但当你处于内部网络通过代理访问外部的时候，或者一些特殊的情况下，你会需要这个技能。

默认你已经会用Scrapy制作蜘蛛了。你可以参考我的另一个介绍页面，或者其他更详尽的教程。

最简单直接的办法

就是在蜘蛛的开头设置系统环境变量像这样：

import os
# 设置相应的代理用户名密码，主机和端口号
os.environ["http_proxy"] = "http://user:password@proxy.internal.server.com:8080"
class YourCrawlSpider(CrawlSpider

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

软猫克鲁

关注关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

scrapy爬虫-爬取wattpad外网小说网站

weixin_42873348的博客

09-21

2609

目前还在学习爬虫scrapy框架，尝试爬取外网的小说网站：https://www.wattpad.com/stories/adventure 目前只是实现了一部分非常简单的内容爬取还未实现的功能 ‘’‘ 1、将parse1和parse2 的内容结合到一起 2、没有实现根据阅读量去提取作者信息 3、没有实现将内容保存到数据库中 ‘’‘’ 有大佬看了可以指点一下吗？代码如下： import scrapy import re import urllib.response as ur import lxml.e

2021-02-04-scrapy爬虫案例1：爬取博客园新闻版块详情页-基础入门篇

誉天小鹿的博客

09-24

1255

作者：Barranzi_ 注：本文所有代码、案例测试环境：1.Linux – 系统版本：Ubuntu20.04 LTS 2.windows – 系统版本：WIN10 64位家庭版所需第三方库安装 pillow pip install pillow -i https://pypi.douban.com/simple mysqlclient pip install mysqlclient -i https://pypi.douban.com/simple 新建scrapy项目

1 条评论您还未登录，请先登录后发表或查看评论

scrapy 使用代理

GGGL的专栏

03-21

3432

# Importing base64 library because we'll need it ONLY #in case if the proxy we are going to use requires authentication import base64 # Start your middleware class class ProxyMiddleware(object): #

Scrapy爬虫代理配置指南：让你的爬虫如虎添翼

热门推荐

m0_67403076的博客

07-31

1万+

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy是一个框架，可以根据需求进行定制。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。...

彻底搞懂 Scrapy 的中间件

墨鱼菜鸡

07-11

913

彻底搞懂Scrapy的中间件(一)：https://www.cnblogs.com/xieqiankun/p/know_middleware_of_scrapy_1.html 彻底搞懂Scrapy的中间件(二)：https://www.cnblogs.com/xieqiankun/p/know_middleware_of_scrapy_2.html 彻底...

Scrapy

casn_d的博客

02-08

972

Scrapy框架(一) 简介 Scrapy是纯Python开发的一个高效,结构化的网页抓取框架； Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。 Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试 Scrapy使用了Twisted 异步网络库来处理网络通讯。使用原因： 1.为了更利于我们将精

Python中Scrapy框架的代理使用

CorGi_8456的博客

07-12

2764

scrapy框架，熟悉python爬虫的朋友们应该知道甚至有所了解，scrapy是一个爬虫框架，模块化程度高，可拓展性强

Python3 使用Scrapy并设置代理IP 爬取数据

无忧代理IP

02-26

1817

本文介绍的代理IP为动态转发代理（http://www.xiaozhudaili.com/buy/tunnel.html），只需要在代码中设置好固定的IP和端口号，以后的每个请求转发代理都会自动更换一个新的IP，不需要在代码中做什么操作。动态转发代理需要有 IP:PORT，用户名，密码。(以下用户名和密码换成自己的) IP:PORT tunnel.xiaozhudaili.com:15...

scrapy入门实战-爬取代理网站

zhangmiaoping23的专栏

09-11

429

2. 目录中spiders放置的是爬虫文件，然后middlewares.py是中间件，有下载器的中间件，有爬虫文件的中间件。pipelines.py是管道文件，是对spider爬虫文件解析数据的处理。settings.py是设置相关属性，是否遵守爬虫的robotstxt协议，设置User-Agent等。需要安装一个xpath helper插件在浏览器中，可以帮助验证书写的xpath是否正确。4.学会使用scrapy的基础命令，创建项目，使用模板生成一个爬虫文件spider；如设置user-agent；

scrapy设置代理

The world's your oyster

01-17

380

示例一搭建代理池或使用付费代理，每次访问proxy_url获取一个随机代理，适合大规模爬取 middlewares.py： import json import logging from scrapy import signals import requests class ProxyMiddleware(): def __init__(self, proxy_url): ...

scrapy中代理的使用

weixin_56572337的博客

02-10

839

scrapy中代理的使用

scrapy 自定义代理

u014248032的博客

10-17

198

自带的代理不好用，可以自定义。 class ProxyMiddleware(object): def process_request(self, request, spider):#次函数名不能改 #代理列表 PROXIES = [ {'ip_port': '111.11.228.75:80', '...

基于Scrapy爬取伯乐在线网站

潇洒坤

07-21

210

标题中的英文首字母大写比较规范，但在python实际使用中均为小写。 2018年7月20日笔记 Scrapy官方文档网址：https://doc.scrapy.org/en/latest/topics/selectors.html 网页在chrome浏览器打开，经过谷歌翻译，如下图所示：图片.png-90.6kB 环境 IDE(Intergrated...

scrapy---中间件--设置User-Agent、代理

qq_35249586的博客

06-07

717

本文主要讲述scrapy—中间件，理解中间件的处理流程。

Scrapy使用GitHub上的ProxyPool代理池

weixin_41586246的博客

09-14

3043

Scrapy爬虫使用代理池