【Python笔记】WEB抓取框架Scrapy的安装方法

最新推荐文章于 2024-08-20 13:37:27 发布

slvher

最新推荐文章于 2024-08-20 13:37:27 发布

阅读量7.8k

点赞数

分类专栏： Python 文章标签： python Scrapy

本文链接：https://blog.csdn.net/slvher/article/details/42346887

版权

本文介绍了Python爬虫框架Scrapy的安装方法，包括通过pip和源码编译两种方式。在安装过程中，可能会遇到依赖包问题，如openssl版本不匹配。详细解决了这些问题，并提供了安装完成后验证Scrapy是否可用的步骤。

摘要由CSDN通过智能技术生成

Scrapy是一个Python实现的轻量级爬虫框架，它借助Twisted实现异步抓取。关于Scrapy的简介，可以参考官网文档Scrapy at a glance，关于业界对Scrapy的评价，可以参考Quora上的这篇问答帖Is there a better crawler than Scrapy?

本文给出两种安装Scrapy的方式：1) 通过pip安装；2) 通过源码编译安装。

1. 通过pip安装Scrapy
借助pip来安装Scrapy也是手册Scrapy Installation Guide建议的方式。

1.1 安装pip
pip是一个开源的Python包管理工具，根据其官网说明，安装pip只需2步：1) 先获取get-pip.py；2) 执行python get-pip.py即可。但我的机器执行第2步时，会报下面的错误：

$ python get-pip.py   
Collecting pip
  Could not find any downloads that satisfy the requirement pip
  No distributions at all found for pip

不清楚是否跟公司网络设置有关（网络是否限制对pypi源的访问？待求证），无奈之下，只能获取pip源码包（从这里）解压后，再执行python setup.py build和python setup.py install来手动安装。
只要Python环境事先已装好easy_install工具，则pip源码安装过程一般不会出错，这里不赘述。

1.2 安装Scrapy
在pip成功安装的前提下，执行以下命令：