【Python笔记】WEB抓取框架Scrapy的安装方法

本文介绍了Python爬虫框架Scrapy的安装方法,包括通过pip和源码编译两种方式。在安装过程中,可能会遇到依赖包问题,如openssl版本不匹配。详细解决了这些问题,并提供了安装完成后验证Scrapy是否可用的步骤。
摘要由CSDN通过智能技术生成

Scrapy是一个Python实现的轻量级爬虫框架,它借助Twisted实现异步抓取。关于Scrapy的简介,可以参考官网文档Scrapy at a glance,关于业界对Scrapy的评价,可以参考Quora上的这篇问答帖Is there a better crawler than Scrapy?

本文给出两种安装Scrapy的方式:1) 通过pip安装;2) 通过源码编译安装。

1. 通过pip安装Scrapy
借助pip来安装Scrapy也是手册Scrapy Installation Guide建议的方式。

1.1 安装pip
pip是一个开源的Python包管理工具,根据其官网说明,安装pip只需2步:1) 先获取get-pip.py;2) 执行python get-pip.py即可。但我的机器执行第2步时,会报下面的错误:

$ python get-pip.py   
Collecting pip
  Could not find any downloads that satisfy the requirement pip
  No distributions at all found for pip
不清楚是否跟公司网络设置有关(网络是否限制对pypi源的访问?待求证),无奈之下,只能获取pip源码包(从 这里)解压后,再执行python setup.py  build和python setup.py install来手动安装。
只要Python环境事先已装好easy_install工具,则pip源码安装过程一般不会出错,这里不赘述。

1.2 安装Scrapy
在pip成功安装的前提下,执行以下命令:
pip install Scrapy
正常情况下,pip会自动拉取编译Scrapy依赖的其它python包, 但由于pip可能调用setuptools去拉取依赖包,而后者可能因为openssl的原因,拉取依赖包失败。这时,我们可以通过下面的命令绕过setuptools,而是用pip直接拉取那个会失败的包:
pip i
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值